Informations générales
Entité de rattachement
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.
Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.
Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.
Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :
• La conscience des responsabilités
• La coopération
• La curiosité
Référence
SL-DRT-25-0820
Direction
DRT
Description du sujet de thèse
Domaine
Défis technologiques
Sujets de thèse
Modèles de fondation multimodaux à grain fin et ancrés spatio-temporellement.
Contrat
Thèse
Description de l'offre
Ce projet de thèse porte sur l'amélioration des modèles multimodaux de grande taille (LMMs) par l’intégration d’informations fines et spatio-temporelles dans les ensembles de données d'entraînement. Bien que les modèles actuels tels que CLIP et Flamingo présentent de bonnes performances, ils s'appuient sur des paires image-texte bruitées et peu structurées, sans ancrage spatial ou temporel explicite. La thèse vise à développer des pipelines automatiques permettant d’enrichir les jeux de données avec des métadonnées géographiques et temporelles, à affiner les légendes par l’introduction de descripteurs sémantiques plus précis, et à réguler la diversité et la compacité des données par un contrôle du nombre d'exemples par classe.
Les stratégies d'entraînement exploiteront des hiérarchies de classes et adapteront les protocoles afin d'améliorer l’alignement entre les éléments des légendes et les régions d’image correspondantes. Le travail portera également sur des régimes d’entraînement conjoints intégrant simultanément les dimensions fine, spatiale et temporelle, ainsi que sur une phase d’inférence orientée vers la génération de contenus diversifiés en mode 'ensemble'. Le projet abordera également des enjeux liés à la qualité des métadonnées, à l’adaptation efficace des modèles, et à la conception de benchmarks adaptés à l’évaluation multi-dimensionnelle.
Les applications ciblées incluent la génération de données synthétiques pour la conduite autonome, l’annotation enrichie d’archives médiatiques via des légendes contextualisées, et une meilleure compréhension visuelle dans les environnements industriels simulés.
Université / école doctorale
Sciences et Technologies de l’Information et de la Communication (STIC)
Paris-Saclay
Localisation du sujet de thèse
Site
Saclay
Critères candidat
Formation recommandée
Master en informatique ou intelligence artificielle
Demandeur
Disponibilité du poste
01/10/2025
Personne à contacter par le candidat
KARA Sandra
CEA
DRT/DIASI//LASTI
CEA SACLAY - NANO INNOV
BAT. 861
Point courier 173
91191 GIF SUR YVETTE
Tuteur / Responsable de thèse
POPESCU Adrian
adrian.popescu@cea.fr
CEA
DRT/DIASI//LASTI
CEA SACLAY - NANO INNOV
BAT. 861
Point courier 173
91191 GIF SUR YVETTE
0169080154
En savoir plus
https://kalisteo.cea.fr/index.php/