Pause
Lecture
Moteur de recherche d'offres d'emploi CEA

Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage


Détail de l'offre

Informations générales

Entité de rattachement

Le CEA est un acteur majeur de la recherche, au service des citoyens, de l'économie et de l'Etat.

Il apporte des solutions concrètes à leurs besoins dans quatre domaines principaux : transition énergétique, transition numérique, technologies pour la médecine du futur, défense et sécurité sur un socle de recherche fondamentale. Le CEA s'engage depuis plus de 75 ans au service de la souveraineté scientifique, technologique et industrielle de la France et de l'Europe pour un présent et un avenir mieux maîtrisés et plus sûrs.

Implanté au cœur des territoires équipés de très grandes infrastructures de recherche, le CEA dispose d'un large éventail de partenaires académiques et industriels en France, en Europe et à l'international.

Les 20 000 collaboratrices et collaborateurs du CEA partagent trois valeurs fondamentales :

• La conscience des responsabilités
• La coopération
• La curiosité
  

Référence

SL-DRT-25-0593  

Direction

DRT

Description du sujet de thèse

Domaine

Défis technologiques

Sujets de thèse

Systèmes visuels de questions-réponses combinant un encodeur binarisé et des modèles de langage

Contrat

Thèse

Description de l'offre

Une des tendances majeures des imageurs intelligents est d’aller au-delà de fonctions d’inférence simple telle que la classification ou la détection d’objet. Cela peut notamment se traduire par le souhait d’ajouter des applications plus complexes permettant une compréhension sémantique de la scène. Parmi ces applications, le VQA (Visual Question Answering) permet aux systèmes d'IA de répondre à des questions, formulées avec du texte, en analysant les images. Dans ce contexte, ce sujet vise à développer un système efficace et embarqué de VQA intégrant un encodeur visuel basé sur des réseaux de neurones binaires (BNN) combiné avec un modèle de langage compact (tiny LLM). Même s’il existent encore de nombreuses étapes pour un portage matériel d’un système intégrant un LLM, ce projet représente une étape significative dans cette direction en s’appuyant sur des BNN. Cet encodeur traite des images en limitant le besoin en ressource de calcul, permettant un déploiement en temps réel sur des dispositifs embarqués. Des mécanismes d'attention seront intégrés pour extraire les informations sémantiques nécessaires à la compréhension de la scène. Le modèle de langage utilisé pourra être stocké localement et ajusté conjointement avec le BNN pour générer des réponses précises et contextuellement pertinentes.
Ce sujet de thèse offre une opportunité pour un candidat intéressé par le Tiny Deep Learning et les LLMs. Il propose un vaste champ de recherche pour des contributions significatives et des résultats intéressants pour des applications concrètes. Le travail consistera à développer une topologie de BNN robuste pour l'analyse sémantique d’une scène visuelle, en prenant en compte des contraintes matérielles (mémoire et calcul), à intégrer et à optimiser l'encodeur BNN avec le LLM, tout en assurant un système VQA cohérent et performant à travers différents types de requêtes et de cas d’usage.

Université / école doctorale

Electronique, Electrotechnique, Automatique, Traitement du Signal (EEATS)
Université Grenoble Alpes

Localisation du sujet de thèse

Site

Grenoble

Critères candidat

Formation recommandée

Intelligence Artificielle, Traitement d'Image

Demandeur

Disponibilité du poste

01/10/2025

Personne à contacter par le candidat

NGUYEN Thien vanthien.nguyen@cea.fr
CEA
DRT/DOPT//L3I
CEA leti/DOPT
Minatec Campus
17, rue des Martyrs
38054 Grenoble Cedex
0438780980

Tuteur / Responsable de thèse

GUICQUERO William william.guicquero@cea.fr
CEA
DRT/DOPT//L3I
CEA leti/DOPT
Minatec Campus
17, rue des Martyrs
38054 Grenoble Cedex
04 38 78 09 57

En savoir plus