Appel à candidature : Thèse en extraction d’informations

Sujet de thèse dans le cadre du projet Popcorn (projet collaboratif
avec deux entreprises) encadrée par Benjamin Lecouteux, Gilles Sérasset et Didier Schwab (Laboratoire d’Informatique de Grenoble, Groupe d’Étude en Traduction Automatique/Traitement Automatisé des Langues et de la Parole)

Peuplement OPérationnel de bases de COnnaissances et Réseaux Neuronaux

Le projet aborde le problème de l’enrichissement semi-automatisé d’une
base de connaissance au travers de l’analyse automatique de textes.
Afin d’obtenir une innovation de rupture dans le domaine du Traitement
Automatique du Langage Naturel (TALN) pour les clients sécurité et
défense, le projet se focalise sur le traitement du français (même si
les approches retenues seront par la suite généralisables à d’autres
langues). Les travaux de thèse aborderont différents aspects :
–   L’annotation automatique de documents textuels par la détection de
    mentions d’entités présentes dans la base de connaissance et leurs
    désambiguïsation sémantique (polysémie, homonymie) ;
–   La découverte de nouvelles entités (personnes, organisations,
    équipements, événements, lieux), de leurs attributs (âge d’une
    personne, numéro de référence d’un équipement, etc.), et des
    relations entre entités (une personne travaille pour une
    organisation, des personnes impliquées dans un événement, …).
Une attention particulière sera donnée au fait de pouvoir s’adapter
souplement à des évolutions de l’ontologie, la prise en compte de la
place de l’utilisateur et de l’analyste pour la
validation/capitalisation des extractions effectuées.

Le projet se focalise autour des trois axes de recherches suivants :
–   Génération de données synthétiques textuelles à partir de textes de
    référence ;
–   La reconnaissance des entités d’intérêt, des attributs associés et
    des relations entre les entités.
–   La désambiguisation sémantique des entités (en cas d’homonymie par
    exemple)

Profil recherché:
    –   Solide expérience en programmation & machine learning pour le
        Traitement Automatique de Langues (TAL), notamment
        l’apprentissage profond
    –   Master Machine Learning ou informatique, une composante TAL ou
        linguistique computationnelle sera un plus apprécié
    –   Bonne connaissance du français

Détails pratiques:
    –   Début de la thèse au 1er janvier 2022
    –   Contrat doctoral à temps plein au LIG (équipe Getalp)
        pour 3 ans (salaire: min 1768€ brut mensuel)

Environnement scientifique:

La thèse sera menée au sein de l’équipe Getalp du laboratoire LIG
(https://lig-getalp.imag.fr/).
La personne recrutée sera accueillie au sein de l’équipe qui offre un
cadre de travail stimulant, multinational et agréable.
Les moyens pour mener à bien le doctorat seront assurés tant en ce qui
concerne les missions en France et à l’étranger qu’en ce qui concerne
le matériel (ordinateur personnel, accès aux serveurs GPU du LIG,
Grille de calcul Jean Zay du CNRS).

Comment postuler ?
Les candidats doivent être titulaires d’un Master en informatique en
Machine Learning ou en traitement automatique du langage naturel
(obtenu avant le début du contrat doctoral).
Ils doivent avoir une bonne connaissance des méthodes d’apprentissage
automatique et idéalement une expérience en collecte et gestion de
corpus.
Ils doivent également avoir une bonne connaissance de la langue
française.
Les candidatures doivent contenir : CV + lettre/message de motivation +
notes de master + lettre(s) de recommandations; et être adressées à
Benjamin Lecouteux (benjamin.lecouteux@univ-grenoble-alpes.fr),
Gilles Sérasset (gilles.serasset@univ-grenoble-alpes.fr) et
Didier Schwab (Didier.Schwab@univ-grenoble-alpes.fr)