Appel à candidature : Thèse (3 ans) ou PostDoc (2 ans) en extraction d’informations

Sujet de thèse ou de postdoctorat dans le cadre du projet  Popcorn (projet collaboratif avec deux entreprises)

Peuplement OPérationnel de bases de COnnaissances et Réseaux Neuronaux

Le projet aborde le problème de l’enrichissement semi-automatisé d’une base de connaissance au travers de l’analyse automatique de textes. Afin d’obtenir une innovation de rupture dans le domaine du Traitement Automatique du Langage Naturel (TALN) pour les clients sécurité et défense, le projet se focalise sur le traitement du français (même si les approches retenues seront par la suite généralisables à d’autres langues). Les travaux aborderont différents aspects :

  • L’annotation automatique de documents textuels par la détection de mentions d’entités présentes dans la base de connaissance et leurs désambiguïsation sémantique (polysémie, homonymie) ;
  • La découverte de nouvelles entités (personnes, organisations, équipements, événements, lieux), de leurs attributs (âge d’une personne, numéro de référence d’un équipement, etc.), et des relations entre entités (une personne travaille pour une organisation, des personnes impliquées dans un événement, …). Une attention particulière sera donnée au fait de pouvoir s’adapter souplement à des évolutions de l’ontologie, la prise en compte de la place de l’utilisateur et de l’analyste pour la validation/capitalisation des extractions effectuées.

Le projet se focalise autour des trois axes de recherches suivants :

  • Génération de données synthétiques textuelles à partir de textes de référence ;
  • La reconnaissance des entités d’intérêt, des attributs associés et des relations entre les entités.
  • La désambiguisation sémantique des entités (en cas d’homonymie par exemple)

Profil recherché:

  • Solide expérience en programmation & machine learning pour le Traitement Automatique de Langues (TAL), notamment l’apprentissage profond
  • Master/Doctorat Machine Learning ou informatique, une composante TAL ou linguistique computationnelle sera un plus apprécié
  • Bonne connaissance du français

Détails pratiques:

  • Début de la thèse ou du PostDoc dès que possible
  • Contrat doctoral à temps plein au LIG (équipe Getalp) pour 3 ans (salaire: min 1768€ brut mensuel)
  • ou Contrat postdoctoral à temps plein au LIG (équipe Getalp) pour 24 mois (salaire: min 2395€ brut mensuel)

Environnement scientifique:

  • Le doctorat ou le postdoctorat sera mené au sein de l’équipe Getalp du laboratoire LIG  (http://lig-getalp-new.imag.fr/).
  • La personne recrutée sera accueillie au sein de l’équipe qui offre un cadre de travail stimulant, multinational  et agréable. 
  • Les moyens pour mener à bien le (post)doctorat seront assurés tant en ce qui concerne les missions en France et à l’étranger qu’en ce qui concerne le matériel (ordinateur personnel, accès aux serveurs GPU du LIG, Grille de calcul Jean Zay du CNRS).

Comment postuler ?

  • Pour postuler sur une thèse de doctorat, les candidats doivent être titulaires d’un Master en informatique, en apprentissage machine ou en traitement automatique du langage naturel (obtenu avant le début du contrat doctoral).
  • Pour postuler sur un postdoctorat, les candidats doivent être titulaires d’une thèse de doctorat en informatique,  en apprentissage machine ou en traitement automatique du langage naturel (obtenu avant le début du contrat doctoral, les étudiants dont la soutenance est prévue avant fin septembre 2022 peuvent ainsi postuler).
  • Ils doivent avoir une bonne connaissance des méthodes d’apprentissage automatique et idéalement une expérience en collecte et gestion de corpus.
  • Ils doivent également avoir une bonne connaissance de la langue française. 

Les candidatures doivent contenir : CV + lettre/message de motivation + notes de master + lettre(s) de recommandations; et être adressées à Benjamin Lecouteux (benjamin.lecouteux@univ-grenoble-alpes.fr), Gilles Sérasset (gilles.serasset@univ-grenoble-alpes.fr) et Didier Schwab (Didier.Schwab@univ-grenoble-alpes.fr