Informations générales
Entité de rattachement
Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.
Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.
Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.
Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :
• La conscience des responsabilités
• La coopération
• La curiosité
Référence
SL-DRT-25-0901
Direction
DRT
Description du sujet de thèse
Domaine
Défis technologiques
Sujets de thèse
Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage
Contrat
Thèse
Description de l'offre
Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d’une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l’intégration de graphes 3D, des requêtes spatio-temporelles ou l’apprentissage par instructions cinématiques. Cette thèse s’inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d’architecture, avec des applications en robotique, analyse vidéo et compréhension d’environnements dynamiques.
Université / école doctorale
Sciences et Technologies de l’Information et de la Communication (STIC)
Paris-Saclay
Localisation du sujet de thèse
Site
Saclay
Critères candidat
Formation recommandée
Ingénieur ou Master en Informatique, Science des données ou IA
Demandeur
Disponibilité du poste
01/10/2025
Personne à contacter par le candidat
TUO Aboubacar
aboubacar.tuo@cea.fr
CEA
DRT/DIASI//LVA
CEA-Saclay, BP 28, GIF-SUR-YVETTE CEDEX, ESSONNE 91191, France
0656802188
Tuteur / Responsable de thèse
LOESCH Angélique
angelique.loesch@cea.fr
CEA
DRT/DIASI//LVA
CEA-Saclay, BP 28, GIF-SUR-YVETTE CEDEX, ESSONNE 91191, France
En savoir plus
https://kalisteo.cea.fr/
https://scholar.google.com/citations?user=5fE1oWwAAAAJ&hl=en