Informations générales
Entité de rattachement
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.
Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.
Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.
Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :
• La conscience des responsabilités
• La coopération
• La curiosité
Référence
SL-DRT-26-0685
Direction
DRT
Description du sujet de thèse
Domaine
Défis technologiques
Sujets de thèse
Extraction de relations complexes et d'événements few-shot à partir de texte appliquée à la littérature scientifique
Contrat
Thèse
Description de l'offre
L'extraction d'information à partir de textes, qui se rattache plus généralement au traitement automatique des langues, a fait l'objet de travaux depuis de nombreuses années centrées sur la reconnaissance d'entités nommées, l'extraction de relations entre ces entités et pour sa partie la plus complexe, celle d'événements, qui prend la forme d'une tâche de remplissage de formulaires (templates) prédéfinis à partir de textes. Dans ce contexte, l'objectif de la thèse est de concevoir, développer et évaluer des modèles d'extraction d'événements opérant sur des articles scientifiques, un événement pouvant correspondre dans ce contexte à un ensemble d'entités et de relations caractérisant par exemple une expérience ou une réaction chimique. De plus, ces modèles devront pouvoir être définis à partir d'un ensemble très restreint de données annotées afin de s'adapter rapidement à un nouveau domaine scientifique.
Sur le plan méthodologique, la thèse proposée cherche à dépasser la tendance que l'on pourrait qualifier de presque naturelle dans le contexte actuel à se tourner vers les grands modèles de langue génératifs (LLM) en défendant l'idée d'une synergie possible entre LLM et modèles plus petits de type encodeur dans un contexte few-shot, synergie dans laquelle les premiers permettent, grâce à la génération de données et d'annotations synthétiques, de construire les ressources permettant de mettre en œuvre les seconds par le biais de mécanismes de préentraînement. La thèse prendra place dans le contexte du projet AIKO de l’agence de programmes numérique, focalisé sur l'extraction de connaissances à partir de publications scientifiques.
Université / école doctorale
Sciences et Technologies de l’Information et de la Communication (STIC)
Paris-Saclay
Localisation du sujet de thèse
Site
Saclay
Critères candidat
Formation recommandée
Master 2 ou école d'ingénieur avec spécialité en traitement automatique des langues et apprentissage automatique
Demandeur
Disponibilité du poste
01/10/2026
Personne à contacter par le candidat
FERRET Olivier
olivier.ferret@cea.fr
CEA
DRT/DIASI/SIALV/LASTI
CEA Saclay Nano-INNOV
Institut CARNOT CEA LIST
Laboratoire Analyse Sémantique Texte et Image (LASTI)
Point courrier n°184
91191 Gif sur Yvette CEDEX
01 69 08 01 47
Tuteur / Responsable de thèse
FERRET Olivier
olivier.ferret@cea.fr
CEA
DRT/DIASI/SIALV/LASTI
CEA Saclay Nano-INNOV
Institut CARNOT CEA LIST
Laboratoire Analyse Sémantique Texte et Image (LASTI)
Point courrier n°184
91191 Gif sur Yvette CEDEX
01 69 08 01 47
En savoir plus
http://oferret.free.fr
https://kalisteo.cea.fr/