Vous êtes ici : Réunions » Réunion

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Journée Visage, gestes, actions et comportement

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

43 personnes membres du GdR ISIS, et 36 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 140 personnes.

Annonce

Nous privilégeons le présentiel néanmoins il sera possible de suivre la réunion en visio à l'aide de zoom :

https://u-pec-fr.zoom.us/j/81893106683

L'objectif de cette journée est de présenter des travaux concernant l'extraction du mouvement humain (visage, mains, corps, gestes) à partir de séquences vidéo, et son analyse à plus haut niveau (tâches, comportement), notamment pour des applications interactives ou de surveillance (video-surveillance, health monitoring, ...).

Une session spécifique sera dédiée à l'analyse des émotions.

La journée inclura deux conférences invitées :

Nous lançons donc un appel à contribution, pour des travaux méthodologiques (incluant les méthodes par apprentissage) et/ou applicatifs, sur l'ensemble des thèmes de l'action :

Les personnes souhaitant présenter leurs travaux à cette journée sont invitées à envoyer, par e-mail, leur proposition (titre et résumé de 1 page maximum) aux organisateurs avant le 13 mai 2022.

Orateurs invités

Cloé Clavel, Image Data Signal dept., Telecom Paris

Titre : Natural Language Processing and User's Social Behaviour Analysis in Conversational AI Systems

Résumé : The last few years have seen an acceleration in the development of conversational AI systems (Alexa from Amazon, Siri from Apple, Google home, companion robots such as Pepper). Although the conversational agents offered by these companies are already on the market, taking into account the social component of the interaction is still a crucial issue for the fluidity and naturalness of the interaction. For example, based on the user's behaviours (e.g. the expression of her preferences or showing signs of boredom or frustration), a companion robot can choose the topics to be addressed in its successive interactions with humans, and propose strategies to re-engage her in the interaction. The first part of my talk will describe the challenges raised by the specific nature of social behaviours as they occur in human-agent interactions and I will propose new insights for future tractable and explainable detection models. In order to illustrate these insights, I will refer to ongoing work on hierarchical and recurrent neural networks to predict the recruiter's decision on hireability from job video interviews. As interpretability of the prediction is crucial for this task, I will present how we leverage the processing of attention mechanisms in order to visualize salient components (analyzing the social signal content of attention slices) for the decision. In the second part of the talk, I will describe the specific structure of human-agent interaction and investigate future directions based on the recent trends in neural architectures for the integration of interaction context and spontaneous speech features. Throughout my talk, I will argue that better interleaving Human Social Sciences and deep learning approaches is the step we need to take towards human-agent interaction systems that are not only more natural and user-friendly but also more performant and trustworthy.

Ivan Laptev, WILLOW project-team INRIA Paris

Titre : Towards embodied multi-modal visual understanding

Résumé : Visual recognition of human actions is a key challenge for video understanding. While existing methods show good results for limited numbers of pre-defined action categories, the generic problem of action recognition remains elusive. Indeed, trying to formalize the levels of granularity, the huge variability and the equivalence classes of actions quickly turns into a headache. Notably, there is an alternative way to define actions through their purpose. Actions are performed to achieve certain goals by transforming the world from its initial state to a target state. For example, removing a car tire implies the change of its tire state being on and then off the vehicle. Building furniture implies furniture parts being assembled into a desired configuration. Motivated by this idea, I will present our recent works addressing goal-oriented and embodied action understanding. I will first show that learning from a large corpus of unlabeled instructional videos leads to generic video representations enabling excellent results for the standard tasks of video retrieval and action classification. I will then describe our recent efforts on identifying object state changes. I will finally present two recent methods that interpret instructions and achieve state of the art for the task of visual language navigation (VLN).

Organisateurs

Programme

9h45 Accueil

10h00 - 10h25 Bilal Ghader, Claire Dune, Eric Watelain, and Vincent Hugel. "Diver gesture recognition using geometric features from RGB".

10h25 - 10h50 Ameur Soualmi, Olivier Alata, Christophe Ducottet, Antoine Giraud et Hugues Patural. "A 3D pose estimation framework for infant general movement assessment".

Pause

11h05 - 11h30 Yassine Naji, Michèle Gouiffès, Aleksandr Setkov, Angélique Loesch et Romaric Audigier. "Object-centric and memory-guided normality reconstruction for video anomaly detection".

11h30 - 11h55 Rodriguez-Martinez E.-A., Polezhaeva O., Marcellin F., Colin E., Boyaval L., Sarhan F.-R., Dakpe S. "Logiciel pour la détection d'anomalies dédié à l'analyse clinique du sourire".

11h55 : Pause repas

13h30 - 13h55 Sayeh Ghplipour Picha, Dawood Al Chanti, Alice Caplier. "How far can generated data impact Neural Networks?"

13h55 - 14h20 Hacene Terbouche, Liam Schoneveld, Oisin Benson, Alice Othmani. "Self-Supervised Audio-Visual Correspondence and Future Prediction for Video Representation Learning".

Présentation invitée

14h20 - 15h00 Ivan Laptev. "Towards embodied multi-modal visual understanding".

Pause

15h15 - 15h40 Hélène Tran, Issam Falih, Xavier Goblet, Engelbert Mephu Nguifo. "La représentation de l'ambiguïté émotionnelle dans l'analyse multimodale des émotions"

15h40 - 16h05 Hamieh Salam, Vincent Heiries, Hussein Al Osman, Christelle Godin. "Multi-modal Fusion for Continuous Emotion Recognition by Using Auto-Encoders".

Présentation invitée

16h05 - 16h45 Cloé Clavel. "Natural Language Processing and User's Social Behaviour Analysis in Conversational AI Systems".

Résumés des contributions

Diver gesture recognition using geometric features from RGB cameras

Bilal Ghader1, Claire Dune1, Eric Watelain2, and Vincent Hugel1

1. COSMER EA 7398, Université de Toulon, France

2. IAPS UR N°201723207F, Université de Toulon, France

Abstract: The interaction between human divers and companion underwater drones remains a challenge. While most of existing studies focus on hand gesture recognition to classify diver commands, the approach of this work is to allow the robot to identify divers? gestures by exploiting the full upper limbs movements of the diver. The use of upper limbs movements shall make it possible to distinguish gestures from further away and in turbid water.

To reach this objective, the first step consists of extracting the pose of the diver from RGB images thanks to the OpenPose algorithm, which was designed for human pose estimation. The second step deals with training a LSTM-based neural network to classify the gestures. This kind of network is well suited for exploiting the time-variation of the gesture.

Previous results obtained with Motion Capture system will be compared with results obtained from RGB images using the same neural network architecture. Based on the analysis of the results, it is expected to embed the full process on the companion robot for real-time interaction.

A 3D pose estimation framework for infant general movement assessment

Ameur Soualmi1,2, Olivier Alata1, Christophe Ducottet1, Antoine Giraud2 et Hugues Patural2

1. Laboratoire Hubert Curien, UMR CNRS 5516, IOGS, Univ. Jean Monnet Saint-Etienne

2. Laboratoire SAINBIOSE, U1059 INSERM, Univ. Jean Monnet Saint-Etienne

Abstract: Computer based spontaneous movements assessment is a highly predictive tool of cerebral palsy and neurodevelopmental disorders in preterm infants. The automatic analysis of movements complexity, variability, and fluency are the main key features for accurate predictions, so precise and efficient pose estimation tools for newborns are needed. Also, even though 2D analysis of infants? movements has made huge advance and nowadays is widely used, it remains unable to translate the whole-body movements information since it does not consider the third dimension is space. In this work, we are addressing these problems by taking advantage of the recent well performing 2D human pose estimation techniques, and adapting them for infants? movements analysis, using an important clinical dataset of 45k images of preterm infants collected with a sophisticated video recording framework. Moreover, we are introducing a non-invasive method for 3D movements analysis based on stereoscopic vision that allow a complete modeling of movements in space. Comparing the performance of our fine-tuned neural networks, which we are making publicly available, to existing solutions shows that we can still progress and deliver better results for the 2D infant pose estimation task. In the other hand, our work demonstrates a simple and clinically efficient protocol for 3D movements analysis that can be a game changing in this field of study.

Object-centric and memory-guided normality reconstruction for video anomaly detection

Yassine Naji1,2, Michèle Gouiffès1, Aleksandr Setkov2, Angélique Loesch2 et Romaric Audigier2

1. LISN, UMR CNRS 9015

2. CEA LIST

Résumé  : Au cours des dernières annèes, la détection des évènements anormaux dans les vidéos a suscité un intérêt grandissant grâce à ses applications en vidéo surveillance, sécurité routière et conduite autonome. Cependant, la subjectivité de la caractérisation de la normalité, la diversité des évènements anormaux ainsi que la rareté des annotations rendent de la reconnaissance des anomalies en vidéos une problématique ouverte et complexe. Etant donné l'abondance des données "normales" par rapport aux données "anormales", cette problématique est souvent traitée sous le paradigme "One class" où le modèle apprend à caractériser la normalité en s'entraînant sur des tâches prétextes en n'utilisant que les données normales largement disponibles, notamment à travers la reconstruction des caractéristiques spatio-temporelles comme l'apparence et le mouvement. Les anomalies sont ainsi détectées par erreur de reconstruction. Récemment de nouvelles approches basées sur l'apprentissage auto-supervisé ont émergé, ces méthodes utilisent des architectures multitâches afin d'étendre le champs des anomalies détectées. Dans ce cadre, nous souhaitons présenter notre approche dont l'objectif est de pouvoir détecter les anomalies d'apparence et de mouvement à l'échelle des objets dans un contexte de vidéo surveillance. La méthode repose sur la détection des objets en utilisant un détecteur d'objets pré-entrainé, ensuite, des caractéristiques d'apparence et de mouvement sont extraites à partir de ces objets. Ces caractéristiques sont données à un modèle qui apprend des prototypes de normalité à travers un module de mémoire. En inférence, le score d'anomalie est composé d'une distance entre le prototype test et le prototype normal le plus proche ainsi d'un score de reconstruction. La méthode a été évaluée sur les benchmarks : UCSDped2, ShanghaiTech et Avenue. Les résultats obtenus montrent la capacité de notre approche à localiser efficacement les anomalies à la fois spatialement et temporellement.

Logiciel pour la détection d'anomalies dédié à l'analyse clinique du sourire

RODRIGUEZ-MARTINEZ Eder Alejandro1,5, POLEZHAEVA Olga1,2,5, MARCELLIN Félix1,5, COLIN Emilien1,3,5, BOYAVAL Lisa1,2, SARHAN François-Régis1,4,5, DAKPE Stéphanie1,2,3,5

1. UR 7516 Laboratoire CHIMERE, Université de Picardie Jules Verne

2. Université de Reims Champagne-Ardenne

3. Chirurgie Maxillo-Faciale CHU Amiens

4. Ecole de kinésithérapie CHU Amiens

5. Institut Faire Faces

Résumé : Les mouvements faciaux sont primordiaux pour l'interaction humaine car ils fournissent des informations pertinentes pour la communication non verbale et les interactions sociales. D'un point de vue clinique, l'analyse de ces mouvements est essentielle pour assurer un suivi efficace des patients dans le cadre des réhabilitations faciales. Néanmoins, les méthodes actuelles d'évaluation des troubles de la mobilité faciale restent subjectives par rapport à l'expérience du clinicien. Pour répondre à cette problématique, nous proposons un logiciel clinique d'exploitation libre, nommé « DeepSmile Anomaly Detector » ou simplement « DeepSmile », qui détecte les anomalies lors d'un sourire. Ce logiciel intègre un modèle de mémoire court-terme et long terme (ou LSTM en Anglais) [Hochreiter, S., & Schmidhuber, J. 1997] qui évalue les mouvements faciaux à partir des données séquentielles. A la fin de l'exécution du logiciel, l'utilisateur obtient un degré d'anomalie métrique et un autre normalisé. Le logiciel génère également un ensemble de courbes décrivant le mouvement mesuré, le mouvement sain prédit par l'algorithme et la différence entre les deux, et un indicateur montre à l'utilisateur si le modèle considère le sourire comme pathologique.

L'obtention des résultats par « DeepSmile » se décompose en trois étapes. La première étape consiste à réaliser une capture des mouvements par stéréophotogrammétrie grâce à 105 marqueurs réfléchissants placés sur le visage d'un volontaire [Olivetto, M. et al 2019] réalisant des mouvements faciaux, dont le sourire volontaire. La deuxième étape consiste à labéliser les marqueurs pour exporter un fichier csv [Sarhan, F.R. 2017]. Enfin, dans la troisième étape, l'utilisateur lance « DeepSmile » et sélectionne un fichier csv. Finalement, « DeepSmile » détecte les anomalies, à l'aide du LSTM intégré, et fourni à l'utilisateur le fichier de résultats.

« DeepSmile » est un logiciel codé en Python qui peut être lancé en cliquant sur une icône. Ce logiciel est capable de quantifier le degré d'anomalie d'un patient avec une pathologie, par exemple une paralysie faciale. De plus, « DeepSmile » est capable de quantifier l'évolution d'un patient pendant la période de réhabilitation post-chirurgie.

Le projet FaceMoCap est cofinancé par le FEDER dans le cadre du programme opérationnel FEDER-FSE pour la Picardie. De plus, ce projet a été financé par l'ANR et la fondation des Gueules cassées.

Références

Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural computation, 9(8), 1735-1780.

Olivetto, M., Sarhan, F. R., Mansour, K. B., Marie, J. P., Marin, F., & Dakpé, S. (2019). Quantitative Analysis of Facial Palsy Based on 3D Motion Capture (SiMoVi-FaceMoCap Project). Archives of Physical Medicine and Rehabilitation, 100(10), e112.

Sarhan, F. R. (2017). Quantification des mouvements de la mimique faciale par motion capture sur une population de volontaires sains (Doctoral dissertation, Compiègne)

How far can generated data impact Neural Networks?

Sayeh Gholipour Picha, Dawood Al Chanti, Alice Caplier

GIPSA-lab, Univ. Grenoble Alpes, CNRS, Grenoble INP

Abstract: The success of Deep Learning (DL) models depends on the size and quality of a given task dataset and its labels. This work addresses the problem of generating data to build a DL-based Facial Expression Recognition (FER) model. Our task requires a large dataset with various Facial Expressions (FEs) and facial deformations. To partially compensate for data needs, many studies rely on standard data augmentation. However, FER requires data with particular feature deformations rather than the whole image level. Generative Adversarial Networks (GANs) provide an alternative method for generating such deformations but need further validation. This work explores "How far can generated data impact neural networks?". We develop a state-of-the-art FER based on Convolutional Neural Networks (CNNs) architecture to recognize basic Ekman emotions. Our FEs generation procedure relies on first generating a random identity from one GAN, which will serve as an input for another GAN that generates the six basic emotions to ensure a balanced synthetic training set. We followed different experimental settings to answer our question. We trained our model using: i) FEs generated from GAN, ii) FEs from real faces, and iii) FEs from a combination of real and GAN generated faces. The first two experiments serve as a baseline. The third experiment is the principle one where we are interested in figuring out the upper bound of the amount of generating data needed to contribute to the enhancement of the FER accuracy while reducing the real faces quantity. Our results showed that by augmenting the real FEs dataset with synthetic data with the triple size the real one allows increasing the accuracy by 12%.

Self-Supervised Audio Visual Correspondence and Future Prediction for Video Representation Learning

Hacene Terbouche1,2, Liam Schoneveld1, Oisin Benson1 & Alice Othmani2

1. Powder AI Research

2. Université Paris-Est, LISSI, UPEC, 94400 Vitry sur Seine, France

Abstract: Self-supervised learning has attracted increased attention from the machine learning community in recent years. In many computer vision applications, the performance gap between supervised and self-supervised learning has become increasingly narrow. Until now, most work in this space has focused on academic benchmarks, rather than real-world datasets. In this work, a new self-supervised approach is proposed for learning audio-visual representations from large databases of unlabeled videos. Our approach learns its representations via a combination of unimodal and cross-modal methods: it tries to predict the future in each modality, and it learns
to align representations extracted separately from the visual and audio modalities. To implement these tasks, three methodologies are assessed: contrastive learning, prototypical constrasting and redundancy reduction. The proposed approach is evaluated on a new, real-world dataset of videos captured from video game gameplay footage.
Our method substantially outperforms baselines on most downstream tasks, showing genuine benefits of self-supervised learning in a real-world application.

Towards embodied multi-modal visual understanding

Présentation invitée

Ivan Laptev

WILLOW project-team INRIA Paris

Abstract: Visual recognition of human actions is a key challenge for video understanding. While existing methods show good results for limited numbers of pre-defined action categories, the generic problem of action recognition remains elusive. Indeed, trying to formalize the levels of granularity, the huge variability and the equivalence classes of actions quickly turns into a headache. Notably, there is an alternative way to define actions through their purpose. Actions are performed to achieve certain goals by transforming the world from its initial state to a target state. For example, removing a car tire implies the change of its tire state being on and then off the vehicle. Building furniture implies furniture parts being assembled into a desired configuration. Motivated by this idea, I will present our recent works addressing goal-oriented and embodied action understanding. I will first show that learning from a large corpus of unlabeled instructional videos leads to generic video representations enabling excellent results for the standard tasks of video retrieval and action classification. I will then describe our recent efforts on identifying object state changes. I will finally present two recent methods that interpret instructions and achieve state of the art for the task of visual language navigation (VLN).

La représentation de l'ambiguïté émotionnelle dans l'analyse multimodale des émotions

Hélène Tran1,2, Issam Falih1, Xavier Goblet2, and Engelbert Mephu Nguifo1

1. LIMOS, Université Clermont-Auvergne, CNRS, Mines de Saint-Etienne, Clermont-Auvergne-INP

2. Jeolis Solutions, 63000 Clermont-Ferrand, France

Résumé : Dans un contexte où les machines qui nous entourent sont conçues pour être au service de l'humain, les doter d'une intelligence émotionnelle est une véritable plus-value et la reconnaissance des émotions en est la première brique. Diverses applications peuvent en bénéficier telles que l'interaction homme-machine, l'expérience de jeu, les systèmes de recommandation, et le suivi des patients à distance. En particulier, les systèmes destinés à l'éducation thérapeutique du patient (ETP) ont intérêt à bénéficier de cette fonctionnalité pour maintenir la motivation des patients sur le long terme, où un parcours thérapeutique personnalisé leur est proposé à partir de leur ressenti.

Le développement d'un système automatique de reconnaissance des émotions comporte ses propres défis. Tout d'abord, l'expression émotionnelle est multimodale par nature : nos émotions peuvent être perçues par autrui à travers notre expression faciale, notre voix, nos mots, notre posture, nos gestes. De ce fait, de nombreux travaux préconisent la collecte de plusieurs modalités pour reconnaître efficacement l'émotion. Ensuite, les premiers modèles ont été conçus pour reconnaître les émotions fortement exprimées et facilement identifiables. Cependant, nous sommes rarement en proie à ce type d'émotions dans notre vie quotidienne. La plupart du temps, nous éprouvons une difficulté à identifier avec certitude notre propre émotion et celle d'autrui : c'est l'ambiguïté émotionnelle.

C'est dans l'optique de relever ces deux défis que nous proposons d'analyser la prise en compte de l'ambiguïté dans les modèles de reconnaissance multimodale des émotions issus de l'état de l'art. Après une présentation des deux grandes familles de représentation des émotions, nous déclinerons notre étude sur deux étapes clés du développement de ces modèles : le choix de la base de données et la représentation émotionnelle en sortie du modèle. Plus précisément, nous présenterons un état de l'art des bases de données multimodales les plus utilisées en reconnaissance des émotions avec leur positionnement sur la problématique de l'ambiguïté. Ensuite, nous étudierons les sorties des modèles de fusion multimodale entrainés sur l'une des seules bases de données qui traitent cette question.

Ce travail est réalisé dans le cadre d'un contrat CIFRE entre le laboratoire LIMOS et la société Jeolis Solutions. Nous remercions l'Association Nationale de la Recherche et de la Technologie (ANRT) pour son soutien financier.

Multi-modal Fusion for Continuous Emotion Recognition by Using Auto-Encoders

Hamieh Salam1, Vincent Heiries1, Hussein Al Osman2, Christelle Godin1

1. CEA, Grenoble

2. University of Ottawa, Ottawa, Canada

Abstract: Human stress detection is of great importance for monitoring mental health. The Multimodal Sentiment Analysis Challenge (MuSe) 2021 focuses on emotion, physiological-emotion, and stress recognition as well as sentiment classification by exploiting several modalities. In this paper, we present our solution for the Muse-Stress sub-challenge. The target of this sub-challenge is continuous prediction of arousal and valence for people under stressful conditions where text transcripts, audio and video recordings are provided. To this end, we utilize bidirectional Long Short-Term Memory (LSTM) and Gated Recurrent Unit networks (GRU) to explore high-level and low-level features from different modalities. We employ Concordance Correlation Coefficient (CCC) as a loss function and evaluation metric for our model. To improve the unimodal predictions, we add difficulty indicators of the data obtained by using Auto-Encoders. Finally, we perform late fusion on our unimodal predictions in addition to the difficulty indicators to obtain our final predictions. With this approach, we achieve CCC of 0.4278 and 0.5951 for arousal and valence respectively on the test set, our submission to MuSe 2021 ranks in the top three for arousal, fourth for valence, and in top three for combined results.

Ces travaux ont été publiés à ACM2021. https://dl.acm.org/doi/10.1145/3475957.3484455

Natural Language Processing and User's Social Behaviour Analysis in Conversational AI Systems

Présentation invitée

Cloé Clavel

Image Data Signal dept., Telecom Paris

Abstract: The last few years have seen an acceleration in the development of conversational AI systems (Alexa from Amazon, Siri from Apple, Google home, companion robots such as Pepper). Although the conversational agents offered by these companies are already on the market, taking into account the social component of the interaction is still a crucial issue for the fluidity and naturalness of the interaction. For example, based on the user's behaviours (e.g. the expression of her preferences or showing signs of boredom or frustration), a companion robot can choose the topics to be addressed in its successive interactions with humans, and propose strategies to re-engage her in the interaction. The first part of my talk will describe the challenges raised by the specific nature of social behaviours as they occur in human-agent interactions and I will propose new insights for future tractable and explainable detection models. In order to illustrate these insights, I will refer to ongoing work on hierarchical and recurrent neural networks to predict the recruiter's decision on hireability from job video interviews. As interpretability of the prediction is crucial for this task, I will present how we leverage the processing of attention mechanisms in order to visualize salient components (analyzing the social signal content of attention slices) for the decision. In the second part of the talk, I will describe the specific structure of human-agent interaction and investigate future directions based on the recent trends in neural architectures for the integration of interaction context and spontaneous speech features. Throughout my talk, I will argue that better interleaving Human Social Sciences and deep learning approaches is the step we need to take towards human-agent interaction systems that are not only more natural and user-friendly but also more performant and trustworthy.

Date : 2022-06-14

Lieu : Amphi Durand, Sorbonne Université (et visio)


Thèmes scientifiques :
B - Image et Vision
T - Apprentissage pour l'analyse du signal et des images

Inscriptions closes à cette réunion.

Accéder au compte-rendu de cette réunion.

(c) GdR 720 ISIS - CNRS - 2011-2022.