Journée Visage, gestes, actions et comportement

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

25 personnes membres du GdR ISIS, et 22 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 100 personnes.

Annonce

L'objectif de cette journée est de donner un espace d'échange aux chercheurs français qui s'intéressent au développement d'approches innovantes pour extraire de l'information à partir du visage, des mains, du corps et des gestes à partir des données audio-visuelles, à savoir à partir des images uniquement ou des vidéos, afin de les analyser à un niveau supérieur pour des applications diverses notamment des applications interactives ou de surveillances, pour la santé, l'assistance aux personnes, l'e-formation ou l'e-learning,...

Une attention particulière sera accordée aux données hétérogènes (couleur, thermique, 3D, ...) et/ou obtenues dans des situations non contrôlées et non contraintes. Les approches multimodales sont au c?ur de cette action.

Les domaines d'intérêt comprennent la reconnaissance des émotions et affects (Affective Computing), la prédiction de la posture 2D ou 3D de la main ou du corps en utilisant des approches basées sur l'apprentissage profond, la modélisation statistique des gestes, la modélisation du visage (forme, apparence, émotion), ainsi que la reconnaissance des activités et des comportements.

La journée comprendra deux conférences invitées :

Renaud Séguier, Professeur à CentraleSupélec, IETR/AIMAC (Artificial Intelligence for Multimodal Affective Computing)

Analyse multimodale des émotions et santé mentale
Md Atiqur Rahman Ahad, Associate Professor, Department of Computer Science and Digital Technologies, University of East London

AI in Healthcare Based on Video & IoT Sensors: Some Examples

Nous lançons un appel à contribution pour les personnes souhaitant présenter leurs travaux (exposés de doctorants encouragés). Les propositions (titre et résumé de 1/2 page) sont à envoyer aux organisateurs avant le 13 octobre 2023.

Organisateurs

Olivier Alata, Lab. Hubert Curien, Univ. Jean Monnet Saint-Etienne
Alice Othmani, LiSSi, UPEC - Université Paris-Est Créteil
Michèle Gouiffes, Polytech Paris-Saclay, LISN, Université Paris-Saclay
Christophe Ducottet, Lab. Hubert Curien, Univ. Jean Monnet Saint-Etienne

Lieu

Amphi Astier, bâtiment Esclangon, RDC, Sorbonne université, Campus Pierre et Marie Curie, 4 place Jussieu 75005 Paris

Participation à distance

Les personnes souhaitant suivre la journée en distanciel pourront se connecter sur la réunion zoom suivante. Merci de bien vous inscrire sur le site du GdR ISIS même en cas de participation à distance.

Sujet: GDR ISIS Visage, Geste, Action, Comportement
Heure: 13 nov. 2023 09:30 PM Paris
Rejoindre Zoom Réunion
https://cnrs.zoom.us/j/91792115559?pwd=RHhhUlZnYk4raEptSTdxUHhJRmFzUT09
ID de réunion: 917 9211 5559
Code secret: 13Nov23

Programme

09h45: Accueil, ouverture de la journée
10h00 - 10h40: Atiqur Rahman Ahad -- exposé invité
AI in Healthcare Based on Video & IoT Sensors: Some Examples
10h45 - 11h05: Mamadou Dia
Novel Stochastic Transformer-based Approach for Post-Traumatic Stress Disorder Detection using Audio Recording of Clinical Interviews
11h10 - 11h30: Diwei Wang
Video-based gait analysis for assessing Alzheimer's Disease and Dementia with Lewy Bodies
11h30: Pause
11h40 - 12h00: Tristan Cladière
Architecture d'apprentissage profond compacte pour la reconnaissance des émotions humaines au sein d'images riches en contexte
12h05 - 12h25: Ibtissam Saadi
Driver's Facial Expression Recognition For Enhanced Road Safety
12h25: Pause déjeuner
14h00 - 14h40: Renaud Séguier -- exposé invité
Analyse multimodale des émotions et santé mentale
14h45 - 15h05: Carlos F. Crispim-Junior
Activity analysis in nowadays vehicles and future self-driving cars: datasets and methods for posture estimation and action recognition
15h05: Pause
15h15 - 15h35: Julie Lascar
Vers l'annotation automatique de vidéos en Langue des Signes Française
15h40 - 16h00: David Picard
H3WB: Human3.6M 3D WholeBody Dataset and Benchmark
16h05 - 16h25: Youssef Mourchid
Un modèle de graphe spatio-temporelle basé sur la fusion d'attention pour l'évaluation des actions des patients
16h30: Clôture

Résumés des contributions

1. AI in Healthcare Based on Video & IoT Sensors: Some Examples

Md Atiqur Rahman Ahad

Associate Professor, Department of Computer Science and Digital Technologies, University of East London

Video, skeleton joint points are widely explored for human activity recognition (HAR). On the other hand, various sensors are engaged in human activity and behavior understanding. Vision-based human action or activity recognition approaches are based on RGB video sequences, depth maps, or skeleton data - taken from normal video cameras or depth cameras. On the other hand, sensor-based activity recognition methods are basically based on the data collected from wearable sensors having accelerometers, gyroscopes, and so on. There are numerous applications on HAR, however, healthcare, elderly support, and related applications become very important arenas with huge social and financial impacts. Due to the advent of various IoT sensors, it becomes more competitive as well as easier to explore different applications. The keynote will cover our works related to HAR approaches, highlighting healthcare perspectives and methods. The presentation will be based on the books and our recent works.

2. A Novel Stochastic Transformer-based Approach for Post-Traumatic Stress Disorder Detection using Audio Recording of Clinical Interviews

Mamadou Dia, Ghazaleh Khodabandelou et Alice Othmani

LISSI, Université Paris-Est Créteil

Présenté à IEEE International Symposium on Computer-Based Medical Systems (IEEE CBMS2023)

Le syndrome de stress post-traumatique (SSPT) est un trouble mental qui peut se développer après avoir été témoin ou avoir vécu des événements extrêmement traumatisants. Le SSPT peut toucher n'importe qui, indépendamment de l'appartenance ethnique, ou dugenre. On estime qu'une personne sur onze souffrira d'un SSPT au cours de sa vie. Les questionnaires CAPS (Clinician-Administered PTSD Scale) et PCL-C (PTSD Check List for Civilians) sont des références en matière de diagnostic du SSPT. Malheureusement, ces questionnaires peuvent être trompés par les réponses du sujet. Dans notre travail, nous proposons une approche basée sur l'apprentissage profond qui atteint des performances de pointe pour la détection du SSPT en utilisant des enregistrements audio lors d'entretiens cliniques. Notre approche est basée sur l'utilisation des coefficients MFCC extraits des enregistrements audio d'entretiens cliniques, suivies d'un apprentissage profond de haut niveau à l'aide d'un transformer stochastique. Grâce à l'utilisation de composants et opérations stochastiques intégrés à notre modèle, nous avons pu obtenir des résultats dépassants les approches existantes sur le dataset eDAIC, un dataset permettant d'entraîner de modèles à la détection du SSPT.

3. Video-based gait analysis for assessing Alzheimer's Disease and Dementia with Lewy Bodies

Diwei Wang

ICube laboratory, University of Strasbourg

Dementia with Lewy Bodies (DLB) and Alzheimer's Disease (AD) are two common neurodegenerative diseases among elderly people. Through many previous studies, it is now well understood that the quantitative gait impairment analysis is an established method for accessing neurodegenerative diseases and gauging their severity, even in the prodromal phase. However, assessments relying on wearable sensors are costly, and sometimes intrusive. Commercial 3D motion analysis systems require carefully calibrated cameras to collect multi-view video data, and are thus not practical. Therefore, we are focused on estimating dementia type and severity using monocular gait videos only. We propose a deep-learning based model specifically designed to evaluate gait impairment score for assessing the dementia severity from videos.

4. Architecture d'apprentissage profond compacte pour la reconnaissance des émotions humaines au sein d'images riches en contexte

Tristan Cladière

Laboratoire Hubert Curien, Université Jean-Monnet Saint-Etienne

La reconnaissance des émotions humaines est une tâche difficile, surtout lorsque nous devons travailler avec des images riches en contexte, où les expressions faciales ne sont pas forcément suffisantes. Les plus récentes approches pour résoudre ce problème sont assez similaires et consistent en l'extraction puis la fusion d'informations variées, concernant principalement les personnes et leurs interactions, la scène, et les objets. Cela nécessite des modèles pré-entraînés, ainsi que de multiples étapes de prétraitement, rendant les solutions longues, complexes, et non adaptées aux applications en temps réel avec des ressources limitées. De plus, ces méthodes ne gèrent pas la détection des personnes et s'appliquent de façon séquentielle aux différents sujets sur une même image. Par conséquent, nous proposons une nouvelle approche qui ne nécessite qu'une seule et unique architecture, et qui permet de détecter et de traiter tous les sujets simultanément en produisant des cartes d'émotions. Nous introduisons également un nouveau protocole d'évaluation pour la reconnaissance des émotions, qui dépend des capacités de détection et qui est donc plus représentatif des performances du modèle en conditions réelles.

5. Driver's Facial Expression Recognition For Enhanced Road Safety

Ibtissam Saadi ^1,2, Douglas W. Cunningham ², Abdelmalik Taleb-ahmed ¹, Abdenour Hadid ³, Yassin El Hillali ¹

¹ Laboratory of IEMN, Univ. Polytechnique Hauts-de-France
² Faculty 1 of Graphical Systems, Univ. BTU Cottbus-Senftenberg, Cottbus, Germany
³ Sorbonne Center for Artificial Intelligence, Sorbonne University Abu Dhabi, Abu Dhabi, UAE

Driving is an integral part of daily life for millions globally, significantly impacting road safety and human well-being. As accidents and fatalities continue to rise, technological advancements have led to innovative approaches aimed at enhancing road safety and mitigating risks associated with human factors during driving. A critical aspect in this context is recognizing the facial expressions of drivers. This recognition is crucial for systems like the Advanced Driver Assistance System (ADAS) and autonomous vehicles, enabling them to comprehend the emotional state and distractions of drivers, including emotions such as anger, happiness, or fear, all of which significantly influence driving behavior.

Our research focuses on developing an accurate real-time driver facial expression recognition system. To achieve this objective, we have introduced a novel transfer learning approach based on Vision Transformers (ViT) called DFER-GCViT. Specifically, we employed the Global Context Vision Transformer (GC-ViT). This approach contrasts with most of the methods proposed in the existing literature, which primarily rely on variants of Convolutional Neural Networks (CNNs). Our system comprises three key modules: preprocessing for face detection and data augmentation, facial feature extraction encompassing both local and global features, and expression classification using a customized GC-ViT classifier. The experiments were conducted to evaluate the performance of our approach on two distinct datasets: the KMU-FED dataset, simulating real driving scenarios and associated challenges, and the FER2013 wild dataset, which comprises images from unconstrained environments. We achieved an accuracy of 98.2% and 73.78%, respectively, surpassing current state-of-the-art methods. These outcomes underscore the robustness of our approach in enhancing accuracy, enabling precise recognition of facial expressions in real-world scenarios marked by occlusions, varying head poses, and variations in illumination conditions.

This research highlights the potential of vision transformers in the field of driver facial expression recognition, offering a novel perspective compared to previous methods.This, in turn, assists researchers in making further advancements in driver facial expression recognition methods, ultimately contributing to improved driving safety.

6. Analyse multimodale des émotions et santé mentale

Renaud Séguier

Professeur à CentraleSupélec, IETR/AIMAC (Artificial Intelligence for Multimodal Affective Computing)

Nous présenterons nos travaux dont l'objectif est de modéliser une variété dans un espace de faible dimension qui représenterait au mieux l'espace des émotions. Cette modélisation doit se faire de façon faiblement supervisée : il faut que cette variété " sorte " des données et ne soit pas contrainte par des représentations a priori. Les données d'entrée sont les expressions du visage, la prosodie de la voix et les phrases prononcées par les personnes.

Ces travaux ont donné lieu à la création de deux startups : Dynamixyz et Emobot. Cette dernière exploite actuellement l'espace émotionnel bien connu Valence/Arousal. Nous montrerons qu'il devrait être possible, à partir de cet espace, de prédire le degré de sévérité d'une dépression, de faire le distinguo entre dépression unipolaire et bipolaire et enfin de réaliser un suivi de l'apathie.

7. Activity analysis in nowadays vehicles and future self-driving cars: datasets and methods for posture estimation and action recognition

Carlos F. Crispim-Junior

LIRIS, Université Lumière Lyon 2

The first robot taxi services are already present in a few cities of the world (e.g., San Francisco, Los Angeles; Austin, among others). Without surprise, most work on self-driving cars (SDC) focuses on improving how these vehicles navigate and interact with the environment. However, what happens in the vehicle cockpit is still underexplored. In this presentation, I will first present our efforts in designing synthetic datasets and collecting real-world data about the postures and the actions of occupants of nowadays and future SDCs of high automation level (Level 4 - Society of Automotive Engineers). Then, I will present the preliminary results we obtain on the proposed datasets using skeleton-based approaches for human 2D pose estimation, convolution neural networks (SlowFast), and transformer- based approaches (MViT) for human action recognition. The proposed framework and acquired datasets will enable us to study how the occupants of current and future SDCs use their travel time based on their postures and activities. The work I present here has been carried out in the context of the AutoBehave project, which was funded by the PACK AMBITION of the French Region AURA.

8. Vers l'annotation automatique de vidéos en Langue des Signes Française

Julie Lascar, Michèle Gouiffès, Annelies Braffort

Université Paris-Saclay, CNRS, LISN

Les langues des signes (LS) sont des langues visuo-gestuelles (passant par la vision et le geste), multi- articulatoires (mains, bouche, regard, sourcils, corps ...) et spatialisées. Leur analyse automatique, notamment pour de la traduction vers le français écrit, passe par la conception de méthodes de vision par ordinateur adaptées. Ces dernières reposent sur la collecte et l'annotation de grandes masses de vidéos éventuellement sous-titrées. Or les données annotées sont rares, particulièrement en LS française (LSF), d'une part car peu de producteurs sont enclins à les partager, d'autre part car l'annotation par des experts est très coûteuse.

Ainsi, nous proposons une approche d'annotation automatique de vidéos en LSF sous-titrées en français. Pour chaque mot du français apparaissant dans les sous-titres, il s'agit de trouver l'ensemble des segments vidéos contenant son équivalent en LSF. Cela est fait par recherche de similarités entre paires de vidéos susceptibles de contenir le signe recherché. Pour ce faire, les vidéos sont préalablement encodées à l'aide d'un Transformer vidéo. Une fois les données ainsi annotées, elles sont exploitées pour entra??ner un classifieur. Différentes architectures ont été comparées ; parmi eux, le modèle LSTM à une couche produit les meilleures performances. Ce modèle est alors appliqué sur l'ensemble des données, permettant d'étendre les annotations.

Les expériences sont menées sur le corpus Mediapi-rgb, comportant 86h de vidéos en LSF produites par des journalistes ou présentateurs sourds du média bilingue en ligne Média'Pi!. À ce jour, nous disposons d'un lexique de 88 mots, qui a permis d'annoter automatiquement 5876 vidéos et ainsi reconna??tre 7259 signes.

9. H3WB: Human3.6M 3D WholeBody Dataset and Benchmark

Yue Zhu, Nermin Samet, David Picard

LIGM, Ecole des Ponts, Univ Gustave Eiffel, CNRS, Marne-la-Vallée, France

Présenté à ICCV 2023 https://arxiv.org/abs/2211.15692

Human body pose estimation is a well studied topic in computer vision because of the numerous applications it enables from body motion prediction and action recognition to augmented reality. In 2D, the task consists in detecting a set of keypoints corresponding to body parts and has been so successful lately that benchmarks on whole-body skeletons (including detailed keypoints on the hands and facial landmarks) are nearly saturated. In 3D, the problem gets more complex because of several factors. First, the perspective-scale ambiguity makes it an ill-posed problem. Second, and more importantly, data acquisition of 3D human body skeletons has proven difficult since it requires a dedicated motion capture setup and is mostly limited to controlled environments. In practice, 3D human body pose datasets are thus restricted to simple skeletons with very few keypoints and this in turns limits their potential applications. To enable further research on this subject, we present in this work an extension of the Human3.6m dataset to a wholebody skeleton of 133 keypoints (including 68 for the face, 42 for the hands) in 3D, enabling detailed pose modeling. To build these new annotations, we leverage several complementary processes from multi-view geometry, masked auto-encoders and conditional diffusion models, leading to 100k images and their associated 133 keypoints in 3D. We propose a benchmark consisting of three tasks: complete 2D skeleton to 3D skeleton lifting, incomplete 2D skeleton to complete 3D skeleton lifting, monocular image to complete 3D skeleton regression ; and propose several baselines for each of these.

10. Un modèle de graphe spatio-temporelle basé sur la fusion d'attention pour l'évaluation des actions des patients.

Youssef Mourchid

CESI LINEACT, Dijon

L'évaluation précise des actions des patients joue un rôle crucial dans les soins de santé, car elle contribue de manière significative à la surveillance de la progression de la maladie et à l'efficacité du traitement, ce qui ultimement améliore la qualité de vie des patients. Cependant, les approches traditionnelles pour évaluer les actions des patients reposent souvent sur l'observation manuelle et l'attribution de notes, ce qui est à la fois subjectif et chronophage, entrainant des coûts élevés en termes de temps et de ressources humaines. Dans cette contribution, nous proposons une approche automatique pour l'évaluation des actions des patients en utilisant un modèle de graphe spatio-temporel à résidus multiples qui intègre à la fois des squelettes 3D angulaires et positionnels des patients. Le modèle proposé est spécifiquement conçu pour capturer la dynamique spatio-temporelle des actions des patients. Il y parvient en intégrant des informations provenant de plusieurs couches résiduelles, chaque couche extrayant des caractéristiques à des niveaux d'abstraction distincts. De plus, nous avons introduit un mécanisme de fusion d'attention au sein du modèle. Cette fonctionnalité permet au modèle d'attribuer de manière adaptative des poids aux différentes caractéristiques extraites, ce qui lui permet de se concentrer sur les aspects les plus pertinents des mouvements du patient. Il peut ainsi fournir des indications claires sur les parties du corps ou les mouvements sur lesquels les professionnels de la santé doivent se concentrer lors de la rééducation physique. Cette capacité d'adaptation et de focalisation contribue de manière significative à l'efficacité du traitement et à l'accélération du processus de guérison. Nous avons évalué notre modèle sur le jeu de données UI-PRMD, et les résultats ont été prometteurs, démontrant sa performance en termes de précision dans la prédiction des scores des actions des patients.

Identification