MOTAMOT : Élaboration d’un système lexical multilingue par le biais de la construction de dictionnaires bilingues ciblés sur les langues peu informatisées d’Asie du sud-est

  • Action de Recherche en Réseau, financé par l’Agence Universitaire de la Francophonie
  • Mots Clefs :  Motamot, dictionnaire, Jibiki, français, vietnamien, khmer, plate-forme contributive, projet collaboratif
  • Description : Ce projet consiste à élaborer un système lexical multilingue en construisant simultanément plusieurs dictionnaires bilingues partageant au moins une langue entre eux. La construction des dictionnaires bilingues se fera en ligne sur un site de type “Papillon” construit sur la plate-forme Jibiki selon une méthodologie de travail collaboratif et bénévole, inspirée du projet Wikipedia.
    Les liens bilingues créés lors de la rédaction des articles sont utilisés d’une part pour générer des liens bilingues inverses, et d’autre part pour créer de nouveaux liens interlingues.
    Ces dictionnaires seront aussi disponibles sous la forme d’une version multimédia, avec une interface conviviale et ergonomique, dont les résultats seront accessibles par deux média : langue (texte) et parole.
    Pour certaines langues (que nous traiterons comme exemples), des modules de synthèse seront rajoutés pour permettre de participer à l’apprentissage de la langue et de donner des exemples sonores de type « mots isolés » ou « livre de courtes phrases » aux apprenants.
    De plus, nous développerons des APIs (Application Programming Interfaces) facilement intégrables dans des pages Internet, des forums, des blogs ou toute autre application permettant d’intégrer les dictionnaires dans des applications de type éditeur de textes, traduction automatique, outils d’apprentissage de la langue, etc. afin de participer au développement de l’informatisation des langues peu dotées.
    Les objectifs principaux de ce projet sont donc :

    • le lancement d’une dynamique de contribution autour de la construction de chaque dictionnaire bilingue en présence. Le succès de Wikipédia montre que cela est possible, à condition d’avoir des outils simples et faciles à utiliser.
    • le passage à grande échelle d’expériences de laboratoire telles que la base DiCo (Mel’čuk et Polguère 2006) ou le système PARAX (Blanc 1996).
    • l’élaboration d’un terrain d’expérimentation pour la validation de plusieurs hypothèses formulées dans de précédents travaux : bijectivité des liens bilingues et transitivité des liens interlingues, contribution massive sur le Web,
    • construction d’un système lexical multilingue.
  • Participants
    • Mathieu Mangeot (chef de projet)
    • Hong-Thai Nguyen
    • Cong-Phap Huyn
    • Geneviève Caelen (MICA)
    • Éric Castelli (MICA)
    • Yeng Vanra
  • Partenaires :
    • Laboratoire MICA-CNRS au Vietnam
    • Institut de Technologie du Cambodge
    • Association pays perdu (Denis Richer)

 

Groupe d'Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole