Soutenance de thèse

Quand :
(Heure officielle à Grenoble/Paris : )

L’événement aura lieu à l’IMAG (Amphi de l’IMAG, bâtiment IMAG), 150 Place du Torrent, 38400 Saint-Martin-d’Hères (lien Google Maps). Il sera également diffusé en direct. Le lien vers la diffusion en direct sera ajouté ici dans les prochaines semaines.

La version relue de mon manuscrit de thèse sera bientôt disponible ici: Lien vers le manuscrit. Il est intitulé: “Reconnaissance des émotions au niveau du groupe en conditions naturelles : vers une approche non individuelle respectueuse de la vie privée”. Le résumé est proposé ci-dessous en anglais, en français et en créole haïtien. La présentation sera donnée en anglais ; les échanges se dérouleront en anglais et en français.

Jury

Rapporteurs

  • Alessandro VINCIARELLI, Full Professor, University of Glasgow
  • Antitza DANTCHEVA, Directrice de Recherche, Centre de l’INRIA Université Côte d’Azur à Sophia Antipolis

Examinateurs

  • Christine KERIBIN, Professeure des Universités, Université Paris-Saclay
  • Bernd DUDZIK, Assistant professor, Delft University of Technology (TU Delft)
  • Didier SCHWAB, Professeure des Universités, Université Grenoble Alpes

Encadrants de Thèse

  • Dominique VAUFREYDAZ, Professeur des Universités, Université de Grenoble Alpes
  • Frédérique LETUE, Maitresse de Conférence, Université de Grenoble Alpes

Abstract

(Version Française en dessous)

This thesis addresses the challenge of group emotion recognition (GER) in-the-wild. Traditional approaches to emotion recognition often rely on individual-level cues such as facial recognition, gaze tracking, or voice profiling. While effective in some settings, these methods raise serious concerns about privacy and surveillance. To overcome these limitations, this thesis prioritizes privacy preservation by leveraging only collective audio–visual signals, focusing on group-level rather than individual-level emotion recognition. The overall objective is to develop multimodal models that can infer group emotions while avoiding the risks associated with individual monitoring and surveillance. Two complementary frameworks are proposed to achieve this goal. The first introduces a cross-attention multimodal architecture for audio–video fusion, combined with a Frames Attention Pooling (FAP) strategy. This framework is further supported by synthetic data augmentation and validated through extensive ablation studies. These experiments demonstrate his effectiveness and robustness for GER in real-world conditions. The second, the Variational Encoder Multi-Decoder (VE-MD), introduces a shared latent space jointly optimized for emotion classification, body, and face structural representation prediction. Two structural representation decoding strategies are explored: DETR-based and heatmap-based, highlighting their respective strengths and limitations in group versus individual settings. A detailed analysis reveals how structural representation integration impacts GER differently compared to non-GER.The scientific contributions of this thesis are threefold. First, it provides new insights into the role of multimodality and structural representation-based cues for group-level affective computing, clarifying how group and individual settings diverge in their requirements and challenges. Second, it advances methodological design through the introduction of two complementary frameworks: a cross-attention fusion model with FAP for temporal aggregation, and VE-MD as a generalizable latent space for multitask learning. Third, it establishes a privacy-preserving paradigm for GER, showing that competitive or state-of-the-art performance can be achieved without relying on individual features as input data.

Résumé

(Vèsyon Kreyòl Ayisyen an aprè)

Cette thèse aborde le défi de la reconnaissance des émotions de groupe (GER) en conditions naturelles. Les approches traditionnelles de la reconnaissance des émotions s’appuient souvent sur des indices individuels tels que la reconnaissance faciale, le suivi du regard ou le profilage vocal. Bien qu’efficaces dans certains contextes, ces méthodes soulèvent de sérieuses préoccupations en matière de confidentialité et de surveillance. Pour surmonter ces limites, cette thèse donne la priorité à la préservation de la vie privée en exploitant uniquement des signaux audiovisuels collectifs, se concentrant sur la reconnaissance des émotions au niveau du groupe plutôt qu’au niveau individuel. L’objectif global est de développer des modèles multimodaux capables de déduire les émotions d’un groupe tout en évitant les risques de manipulation et de surveillance individuelle. Deux modélisations complémentaires sont proposées pour atteindre cet objectif. La première introduit une architecture multimodale à attention croisée pour la fusion audio-vidéo, combinée à une stratégie de Frames Attention Pooling (FAP). Cette modélisation est en outre soutenue par l’augmentation des données synthétiques et validée par des études d’ablation approfondies. Ces expériences démontrent son efficacité et sa robustesse pour le GER dans des conditions réelles. La seconde, le Variational Encoder Multi-Decoder (VE-MD), introduit un espace latent partagé optimisé conjointement pour la classification des émotions et la prédiction de la représentation structurelle du corps et du visage. Deux stratégies de décodage de la représentation structurelle sont explorées : celle basée sur DETR et celle basée sur la carte thermique, mettant en évidence leurs forces et leurs limites respectives dans des contextes de groupe et hors groupe. Une analyse détaillée révèle comment l’intégration de la représentation structurelle a un impact différent sur le GER par rapport au non-GER. Les contributions scientifiques de cette thèse sont triples. Premièrement, elle apporte de nouvelles perspectives sur le rôle de la multimodalité et des indices basés sur la représentation structurelle pour la reconnaissance affective au niveau du groupe, en clarifiant comment les contextes de groupe et individuels divergent dans leurs exigences et leurs défis. Deuxièmement, elle fait progresser la conception méthodologique grâce à l’introduction de deux modélisations complémentaires : un modèle de fusion d’attention croisée avec FAP pour l’agrégation temporelle, et VE-MD comme espace latent généralisable pour l’apprentissage multitâche. Troisièmement, elle établit un paradigme de préservation de la vie privée pour le GER, montrant que des performances compétitives ou de pointe peuvent être obtenues sans s’appuyer sur des caractéristiques individuelles comme des données d’entrée.

Rezime

Tèz sa a adrese defi rekonesans emosyon gwoup (GER) nan kondisyon natirèl. Apwòch tradisyonèl yo pou rekonesans emosyon souvan apiye sou siyal endividyèl tankou rekonesans vizaj, swivi je, oswa pwofilaj vwa. Malgre yo efikas nan kèk kontèks, metòd sa yo soulve gwo enkyetid sou vi prive ak siveyans. Pou simonte limitasyon sa yo, tèz sa a bay priyorite ak prezèvasyon vi prive lè li itilize sèlman siyal odyovizyèl kolektif yo. Li konsantre sou rekonesans emosyon gwoup moun ansanm olye chak grenn moun nan group la. Objektif jeneral la se devlope modèl miltimodal (zouti entèlijans atifisyèl) ki kapab rekonèt emosyon gwoup moun pandan y’ap evite risk manipilasyon ak siveyans endividyèl. De apwòch modelizasyon konplemantè pwopoze pou reyalize objektif sila a. Premye a prezante yon achitekti miltimodal atansyon kwaze pou fizyon odyo-videyo, konbine avèk yon estrateji Frames Attention Pooling (FAP). Modèl sa a sipòte pa ogmantasyon done sentetik epi valide pa etid ablasyon divès. Eksperyans sa yo demontre efikasite ak robistès modèl la pou GER nan kondisyon reyèl. Dezyèm nan, Variational Encoder Multi-Decoder (VE-MD), entrodwi yon espas latan pataje optimize ansanm pou klasifikasyon emosyon ak prediksyon reprezantasyon estriktirèl kò ak vizaj moun. Gen de strateji ki eksplore pou dekode reprezantasyon estriktirèl yo: yonn ki baze sou yon modèl DETR ak yonn ki baze sou kat chalè (heatmap), aksan mete sou fòs ak limit respektif yo nan kontèks gwoup ak non-gwoup. Yon analiz detaye revele kijan entegrasyon reprezantasyon estriktirèl yo gen yon enpak diferan sou GER konpare ak sa ki pa GER (non-GER). Kontribisyon syantifik tèz sa a gen twa aspè. Premyèman, li bay yon nouvo apèsi sou wòl miltimodalite ak siyal ki baze sou reprezantasyon estriktirèl pou rekonesans siyal afektif nan nivo gwoup, li klarifye kijan kontèks gwoup ak endividyèl yo divèje nan egzijans ak defi yo. Dezyèmman, li fè pwogrese konsepsyon metodolojik atravè entwodiksyon de modèl konplemantè: yon modèl fizyon atansyon kwaze ak FAP pou agregasyon tanporèl, ak VE-MD kòm yon espas latan jeneralizab pou aprantisaj milti-tach. Twazyèmman, li etabli yon apwòch ki prezève vi prive pou GER, li montre ke pèfòmans konpetitif oswa dènye kri yo ka reyalize san yo pa konte sou karakteristik endividyèl kòm done an antre.