Le GETALP, une longue histoire…

Historique

L’équipe GETALP, issue des équipe GEOD et GETA du laboratoire CLIPS, s’inscrit dans une longue histoire, plus longue pour le traitement de la langue écrite (histoire du GETA) que pour celui de la langue orale (histoire de GEOD), et construit une nouvelle histoire commune.

Thématique

Le GETA (jusqu’en 2006)

Le GETA (Groupe d’Étude pour la Traduction Automatique) est une équipe pluridisciplinaire formée d’informaticiens et de linguistes. Les thèmes de recherche du GETA concernent tous les aspects théoriques, méthodologiques et pratiques de la TAO (Traduction Assistée par Ordinateur), et plus généralement de l’informatique multilingue. Le GETA est issu du CETA (1961- 1971), laboratoire pionnier de la TA en France.

Actuellement, le GETA reste actif en TAO du réviseur, mais réoriente sa recherche, depuis 1988, vers la TAO individuelle, qui comporte deux volets, la TAO du traducteur et la TAO du rédacteur.

La TAO du traducteur consiste à offrir des outils de bureautique linguistique à des traducteurs (professionnels ou occasionnels). C’est l’homme qui traduit. Dans ce domaine, nous travaillons en coopération avec d’autres groupes de recherche, qui apportent des données ou outils linguistiques (lexiques, lemmatiseurs), et nous nous intéressons aux problèmes informatiques liés à l’intégration de ces éléments sous une forme utilisable par des traducteurs occasionnels, désireux de les employer depuis leurs applications favorites. Nous avons récemment élaboré et proposé en collaboration avec SITE-Eurolang, le projet Montaigne, qui vise à mettre à disposition de la communauté scientifique le logiciel Eurolang-Optimizer, via Internet, et à l’utiliser pour constituer des grosses bases terminologiques pouvant ensuite aussi alimenter des systèmes automatiques.

La TAO du rédacteur est l’objectif principal des travaux en cours, regroupés dans le projet LIDIA. L’idée de base est d’offrir à un rédacteur unilingue la possibilité de rédiger dans sa langue, et, au prix d’un dialogue de standardisation et de désambiguïsation (qu’il conviendra de rendre le moins lourd et le plus convivial possible), d’être traduit dans plusieurs langues, sans révision ou avec une révision minimale. Il s’agit donc de TAO fondée sur le dialogue (DBMT, pour Dialogue-Based Machine Translation) et de pré édition indirecte, mais c’est bien la machine qui traduit. Une première maquette, LIDIA-1, partant du français et allant vers l’allemand, le russe et l’anglais, a été spécifiée et réalisée au cours des trois dernières années.

GEOD (jusqu’en 2006)

Le domaine de recherche de GEOD est celui de la parole et du dialogue, pour concevoir des logiciels d’interaction et de communication parlée et doter les systèmes d’une composante langagière fiable et performante.

Depuis plus d’une quinzaine d’années, les moyens de communication (téléphone mobile, Internet) et les média de diffusion électronique de l’information (émissions de radio et de télévision numériques) ont connu un essor sans cesse croissant. Dans le même temps, le progrès des techniques de traitement numérique de l’information et de la technologie des calculateurs a été gigantesque. Cette évolution a ouvert des perspectives prometteuses à de nombreuses applications dans le domaine de la communication orale homme-machine ou homme-homme médiatisée, mais aussi à des applications spécifiques dans le domaine médical comme la télésurveillance des malades à domicile (habitat intelligent). En parallèle, grâce à la facilité de stockage due en partie à des algorithmes de compression très efficaces, les corpus de documents audio et vidéo ne cessent de croître. Pratiquement toute information multimédia se trouve aujourd’hui disponible sous format numérique et son exploitation ouvre le champ à de nouvelles applications d’indexation et de recherche de documents par le contenu.

Dans ce contexte, la thématique de recherche de GEOD est centrée sur l’Interaction Orale, articulée autour de deux axes scientifiques principaux : Reconnaissance (parole, audio et locuteur) et Dialogue (modélisation et compréhension). Pour ces deux axes, subsistent encore un certain nombre de verrous liés à la généricité des modèles : cette caractéristique reste un objectif essentiel, situé au centre de nos préoccupations de recherche pour le long terme. Pour l’axe Reconnaissance, les efforts de recherche de GEOD pendant la période 2001-2005 ont porté sur deux sous thèmes : la réalisation de systèmes de reconnaissance multilingue pour la parole continue et l’amélioration de leur robustesse, l’exploitation de la parole et des sons comme composante de l’interaction multimodale dans les espaces perceptifs. Pour l’axe Dialogue, l’objectif a été le développement de systèmes de dialogue homme-machine multimodaux.

GEOD entretient des relations privilégiées avec le laboratoire MICA (Multimedia, Informations, Communication et Applications), l’une des antennes à l’étranger du laboratoire CLIPS.

Domaines

Les recherches sur ces différents types de TAO s’articulent autour de thèmes à dominante informatique, linguistique, et ergonomique.

Thèmes à dominante informatique

  • architecture distribuée et systèmes distribués de TAO (technique du tableau blanc)
  • langages spécialisés du futur, adaptés aux entrées bruitées et aux approches interactives
  • conception et réalisation d’une plateforme informatique pour les BDLM hétérogènes
  • multilinguïsation du logiciel et encodage de textes multilingues pour la TAO

Thèmes à dominante linguistique

  • formalismes déclaratifs de spécification grammaticale (“grammaires statiques”) et représentations des énoncés (m-structures, f-structures typées)
  • conception linguistique et construction de bases de données lexicales multilingues
  • conception et expérimentation de systèmes de TA

Thèmes à dominante ergonomique

  • organisation de dialogues de standardisation et de désambiguïsation
  • intégration du multimédia, et en particulier de techniques de désambiguïsation interactive multimodale en TAO du rédacteur
  • aspects d’apprentissage assisté par ordinateur de systèmes fondés sur des connaissances linguistiques complexes