Archives de catégorie : Uncategorized

Appel à candidature : Thèse (3 ans) ou PostDoc (2 ans) en extraction d’informations

Sujet de thèse ou de postdoctorat dans le cadre du projet  Popcorn (projet collaboratif avec deux entreprises)

Peuplement OPérationnel de bases de COnnaissances et Réseaux Neuronaux

Le projet aborde le problème de l’enrichissement semi-automatisé d’une base de connaissance au travers de l’analyse automatique de textes. Afin d’obtenir une innovation de rupture dans le domaine du Traitement Automatique du Langage Naturel (TALN) pour les clients sécurité et défense, le projet se focalise sur le traitement du français (même si les approches retenues seront par la suite généralisables à d’autres langues). Les travaux aborderont différents aspects :

  • L’annotation automatique de documents textuels par la détection de mentions d’entités présentes dans la base de connaissance et leurs désambiguïsation sémantique (polysémie, homonymie) ;
  • La découverte de nouvelles entités (personnes, organisations, équipements, événements, lieux), de leurs attributs (âge d’une personne, numéro de référence d’un équipement, etc.), et des relations entre entités (une personne travaille pour une organisation, des personnes impliquées dans un événement, …). Une attention particulière sera donnée au fait de pouvoir s’adapter souplement à des évolutions de l’ontologie, la prise en compte de la place de l’utilisateur et de l’analyste pour la validation/capitalisation des extractions effectuées.

Le projet se focalise autour des trois axes de recherches suivants :

  • Génération de données synthétiques textuelles à partir de textes de référence ;
  • La reconnaissance des entités d’intérêt, des attributs associés et des relations entre les entités.
  • La désambiguisation sémantique des entités (en cas d’homonymie par exemple)

Profil recherché:

  • Solide expérience en programmation & machine learning pour le Traitement Automatique de Langues (TAL), notamment l’apprentissage profond
  • Master/Doctorat Machine Learning ou informatique, une composante TAL ou linguistique computationnelle sera un plus apprécié
  • Bonne connaissance du français

Détails pratiques:

  • Début de la thèse ou du PostDoc dès que possible
  • Contrat doctoral à temps plein au LIG (équipe Getalp) pour 3 ans (salaire: min 1768€ brut mensuel)
  • ou Contrat postdoctoral à temps plein au LIG (équipe Getalp) pour 24 mois (salaire: min 2395€ brut mensuel)

Environnement scientifique:

  • Le doctorat ou le postdoctorat sera mené au sein de l’équipe Getalp du laboratoire LIG  (http://lig-getalp-new.imag.fr/).
  • La personne recrutée sera accueillie au sein de l’équipe qui offre un cadre de travail stimulant, multinational  et agréable. 
  • Les moyens pour mener à bien le (post)doctorat seront assurés tant en ce qui concerne les missions en France et à l’étranger qu’en ce qui concerne le matériel (ordinateur personnel, accès aux serveurs GPU du LIG, Grille de calcul Jean Zay du CNRS).

Comment postuler ?

  • Pour postuler sur une thèse de doctorat, les candidats doivent être titulaires d’un Master en informatique, en apprentissage machine ou en traitement automatique du langage naturel (obtenu avant le début du contrat doctoral).
  • Pour postuler sur un postdoctorat, les candidats doivent être titulaires d’une thèse de doctorat en informatique,  en apprentissage machine ou en traitement automatique du langage naturel (obtenu avant le début du contrat doctoral, les étudiants dont la soutenance est prévue avant fin septembre 2022 peuvent ainsi postuler).
  • Ils doivent avoir une bonne connaissance des méthodes d’apprentissage automatique et idéalement une expérience en collecte et gestion de corpus.
  • Ils doivent également avoir une bonne connaissance de la langue française. 

Les candidatures doivent contenir : CV + lettre/message de motivation + notes de master + lettre(s) de recommandations; et être adressées à Benjamin Lecouteux (benjamin.lecouteux@univ-grenoble-alpes.fr), Gilles Sérasset (gilles.serasset@univ-grenoble-alpes.fr) et Didier Schwab (Didier.Schwab@univ-grenoble-alpes.fr

Prix du meilleur article à la conférence TALN 2019 pour le GETALP

Lors de la 26ème conférence sur le Traitement Automatique des Langues à Toulouse du 1er au 5 juillet organisé conjointement avec la Plateforme d’Intelligence Artificielle, Loïc Vial, Benjamin Lecouteux et Didier Schwab ont obtenu le prix du meilleur article pour Compression de vocabulaire de sens grâce aux relations sémantiques pour la désambiguïsation lexicale.
Cet article présente une méthode originale qui pallie le manque de données annotés de bonne qualité et qui permet d’obtenir des résultats qui surpassent largement l’état de l’art sur toutes les tâches d’évaluation de la désambiguïsation lexicale.
Pour rappel, la Désambiguïsation Lexicale est une tâche qui vise à clarifier un texte en assignant à chacun de ses mots l’étiquette de sens la plus appropriée depuis un inventaire de sens prédéfini. Il s’agira, par exemple, de préférer dans la phrase La souris mange le fromage le sens de rongeur plutôt que le sens de dispositif électronique pour le mot souris. Ces travaux sont exploités par les auteurs dans plusieurs applications du traitement automatique des langues comme la traduction automatique ou pour concevoir des outils destinés à établir une communication alternative par exemple pour pour des personnes maîtrisant pas ou peu la langue ou des personnes en situation de polyhandicap.

ICPhS 2019 Special Session

Welcome

This is the web page for the Computational Approaches for Documenting and Analyzing Oral Languages Special Session at ICPhS 2019, the International Congress of the Phonetic Sciences, 5-9 August 2019, Melbourne, Australia.

Summary

The special session Computational Approaches for Documenting and Analyzing Oral Languages welcomes submissions presenting innovative speech data collection methods and/or assistance for linguists and communities of speakers: methods and tools that facilitate collection, transcription and translation of primary language data. Oral languages is understood here as referring to spoken vernacular languages which depend on oral transmission, including endangered languages and (typically low-prestige) regional varieties of major languages.

The special session intends to provide up-to-date information to an audience of phoneticians about developments in machine learning that make it increasingly feasible to automate segmentation, alignment or labelling of audio recordings, even in less-documented languages. A methodological goal is to help establish the field of Computational Language Documentation and contribute to its close association with the phonetic sciences. Computational Language Documentation needs to build on the insights gained through phonetic research; conversely, research in phonetics stands to gain much from the availability of abundant and reliable data on a wider range of languages.

Our special session is mentioned on the ICPhS website here. You can find a poster of this session here.

Main goals

The special session aims to bring together phoneticians, computer scientists and developers interested in the following goals:

  • Rethinking documentary processes: recording, transcription and annotation;
  • Responding to the urgent need to document endangered languages and varieties;
  • Elaborating an agenda and establishing a roadmap for computational language documentation;
  • Ensuring that the requirements of phonetics research are duly taken into consideration in the agenda of Computational Language Documentation;
  • Attracting computer scientists to ICPhS and engaging them in discussions with phoneticians (and linguists generally).

Main topics

This special session will focus on documenting and analyzing oral languages, including topics such as the following:

  • large-scale phonetics of oral languages,
  • automatic phonetic transcription (and phonemic transcription),
  • mobile platforms for speech data collection,
  • creating multilingual collections of text, speech and images,
  • machine learning over these collections,
  • open source tools for computational language documentation,
  • position papers on computational language documentation.

Session format

Special sessions at ICPhS will normally be 1.5 hours. For our accepted special session, we chose the “workshop” type with a more open format suitable for discussion of methods/tools. The exact format is still to be determined. More details will be provided on the format later.

How does the submission process work?

Papers will be submited directly to the conference by December 4th and will then be evaluated according to the standard ICPhS review process [see here]. Accepted papers will be allocated either to this special session or a general session. When submitting you can specify if you want to be considered for this special session.

Organizers

Laurent Besacier – LIG UGA (France)
Alexis Michaud – LACITO CNRS (France)
Martine Adda-Decker – LPP CNRS (France)
Gilles Adda – LIMSI CNRS (France)
Steven Bird – CDU (Australia)
Graham Neubig – CMU (USA)
François Pellegrino – DDL CNRS (France)
Sakriani Sakti – NAIST (Japan)
Mark Van de Velde – LLACAN CNRS (France)

Endorsement

This special session is endorsed by SIGUL (Joint ELRA and ISCA Special Interest Group on Under-resourced Languages)

Séminaire d’équipe Pedro Chahuara le jeudi 18 mai à 14h

Online Mining of Web Publisher RTB Auctions for Revenue Optimization
In the online adversiment market there are two main actors: the publishers that offer a space for advertisement in their websites and the announcers who compite in an auction to show their advertisements in the available spaces. When a user accesses an internet site an auction starts for each ad space, the profile of the user is given to the announcers and they offer a bid to show an ad to that user. The publisher fixes a reserve price, the minimum value they accept to sell the space.
In this talk I will introduce a general setting for this ad market and I will present an engine to optimize the publisher revenue from second-price auctions, which are widely used to sell on-line ad spaces in a mechanism called real-time bidding. The engine is fed with a stream of auctions in a time-varying environment (non-stationary bid distributions, new items to sell, etc.) and it predicts in real time the optimal reserve price for each auction. This problem is crucial for web publishers, because setting an appropriate reserve price on each auction can increase significantly their revenue.
I consider here a realistic setting where the only available information consists of a user identifier and an ad placement identifier. Once the auction has taken place, we can observe censored outcomes : if the auction has been won (i.e the reserve price is smaller than the first bid), we observe the first bid and the closing price of the auction, otherwise we do not observe any bid value.
The proposed approach combines two key components: (i) a non-parametric regression model of auction revenue based on dynamic, time-weighted matrix factorization which implicitly builds adaptive users’ and placements’ profiles; (ii) a non-parametric model to estimate the revenue under censorship based on an on-line extension of the Aalen’s Additive Model.