Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

Détail de l'offre

Informations générales

Entité de rattachement

Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.

Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.

Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.

Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :

• La conscience des responsabilités
• La coopération
• La curiosité
  

Référence

SL-DRT-25-0901  

Direction

DRT

Description du sujet de thèse

Domaine

Défis technologiques

Sujets de thèse

Justification visuelle du raisonnement spatio-temporel dans les modèles multimodaux vision-langage

Contrat

Thèse

Description de l'offre

Les modèles vision-langage (VLMs) récents, comme BLIP, LLaVA et Qwen-VL, ont montré de bonnes performances sur des tâches multimodales, mais présentent encore des lacunes en raisonnement spatio-temporel. Les benchmarks actuels confondent souvent raisonnement visuel et connaissances générales, et ne sollicitent que peu de raisonnement complexe. De plus, ces modèles peinent à interpréter les relations spatiales fines et les scènes dynamiques, en raison d’une mauvaise exploitation des caractéristiques visuelles. Pour y remédier, des travaux récents (SpatialRGPT, SpaceVLLM, VPD, ST-VLM) ont introduit des innovations telles que l’intégration de graphes 3D, des requêtes spatio-temporelles ou l’apprentissage par instructions cinématiques. Cette thèse s’inscrit dans cette lignée en proposant une nouvelle approche pour améliorer le raisonnement spatio-temporel des VLMs grâce à des techniques avancées de représentation des données et d’architecture, avec des applications en robotique, analyse vidéo et compréhension d’environnements dynamiques.

Université / école doctorale

Sciences et Technologies de l’Information et de la Communication (STIC)
Paris-Saclay

Localisation du sujet de thèse

Site

Saclay

Critères candidat

Formation recommandée

Ingénieur ou Master en Informatique, Science des données ou IA

Demandeur

Disponibilité du poste

01/10/2025

Personne à contacter par le candidat

TUO Aboubacar aboubacar.tuo@cea.fr
CEA
DRT/DIASI//LVA
CEA-Saclay, BP 28, GIF-SUR-YVETTE CEDEX, ESSONNE 91191, France
0656802188

Tuteur / Responsable de thèse

LOESCH Angélique angelique.loesch@cea.fr
CEA
DRT/DIASI//LVA
CEA-Saclay, BP 28, GIF-SUR-YVETTE CEDEX, ESSONNE 91191, France

En savoir plus


https://kalisteo.cea.fr/
https://scholar.google.com/citations?user=5fE1oWwAAAAJ&hl=en