Journée Visage, geste, action et comportement

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

36 personnes membres du GdR ISIS, et 38 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 160 personnes.

Annonce

Réunion du GdR ISIS

Titre : Journée de l'AS Visage, geste, action et comportement
Date : 7 décembre 2017, 9h30 à 17h
Lieu : TELECOM ParisTech 46 rue Barrault 75013 Paris FRANCE (Amphi Thévenin, puis Estaunié)

Annonce :

La prochaine réunion de l'AS Visage, geste, action et comportement aura lieu 7 décembre à Paris (Télécom ParisTech, 46 rue Barrault).

La journée inclura des conférences invitées et des communications pour lesquelles nous lançons un appel à contribution sur l'ensemble des thèmes de l'AS :

Reconnaissance d'émotions (visage, audio, geste, ...)
Reconnaissance de gestes interactifs
Reconnaissance d'actions et d'activités
Estimation de la posture articulée (corps entier, mains, etc.)
Etude de la synchronie des signaux non verbaux (mouvement de tête, tours de parole, geste, posture, ...).
Modélisation et détection de l'engagement dans les interactions
Modélisation et génération de comportements (avatar)
Applications...

Organisation : Christian Wolf (christian.wolf@insa-lyon.fr) et Catherine Achard (catherine.achard@upmc.fr).

Programme

Journée GDR ISIS Visages, Gestes, Activités, Comportements

Date : 7 décembre 2017, 9h30 à 17h

Lieu : TELECOM ParisTech 46 rue Barrault 75013 Paris FRANCE (Amphi Thévenin, puis Estaunié)

9h30 Accueil (Amphi Thévenin)

10h

Intervenant : Diogo Luvizon (ETIS - ENSEA / UPMC - LIP6)

Auteurs : Diogo Luvizon, Hedi Tabia, David Picard

Titre : Human Pose Regression by Combining Indirect Part Detection and Contextual Information

10h30

Intervenant : Anis Kacem (CRIStAL , IMT Lille-Douai)

Auteurs : Anis Kacem, Mohamed Daoudi, Boulbaba Ben Amor et Juan Carlos Alvarez-Paiva

Titre : Une nouvelle repre?sentation spatio-temporelle dans le co?ne des matrices semi-de?finie positives pour la reconnaissance des expressions faciales

==================================

11h - 12h

Séance de posters

(Voir la liste de posters ci-dessous)

==================================

12h - 13h30 Pause

==================================

13h30 Séance Intervention invitée ( !! Amphi Estaunié !!)

Intervenant: Gregory Rogez (INRIA Toths)

Biographie :

Grégory Rogez is a Research Scientist with the THOTH team at Inria Grenoble Rhône-Alpes. He graduated from the Ecole Nationale Supérieure de Physique de Marseille (now Centrale Marseille) in 2002 and received the M.Sc. degree in biomedical engineering and the Ph.D. degree in computer vision from the University of Zaragoza, Spain, in 2005 and 2012 respectively. Dr. Rogez was the recipient of a best Ph.D. thesis award for his work on monocular human body pose analysis and was awarded a Marie Curie Fellowship to visit the University of California between 2013 and 2015.

Auteurs: Grégory Rogez, Philippe Weinzaepfel et Cordelia Schmid

Titre: 3D human pose detection: deep architectures and training data

Résumé : In this talk, I will show how 3D human pose estimation from monocular images can be tackled as a detection problem using a standard classifier. I will briefly present some of my previous work where classification approaches were used at different levels of the human body: full-body, upper body and hand pose. Then, I will present in more details our recent work on full-body pose estimation in the wild. I will discuss advantages and drawbacks of classification approaches and propose some solutions involving CNN architectures and training data synthesis.

==================================

14h30 - 15h Pause

==================================

15h

Intervenant : Fabien Baradel (LIRIS, INSA-Lyon)

Auteurs : Fabien Baradel, Christian Wolf, Julien Mille, Graham Taylor

Titre : The role of articulated pose and visual attention for human action recognition

15h30

Intervenant : Carlos Arango (LHC)

Auteurs: Carlos Arango, Anne-Claire Legrand, Hubert Konik, Rémi Emonet, Alata Olivier

Titre : Analysis and detection of facial micro-expressions using the Riesz pyramid

16h

Intervenant : Rahim Kadkhodamohammadi (iCube, Université de Strasbourg)

Auteurs : Rahim Kadkhodamohammadi, Afshin Gangi, Michel de Mathelin, and Nicolas Padoy

Titre : Multi-view 3D Clinician Detection and Pose Estimation

16h30

Intervenant : Yannick Benezeth (LE2I, Univ Bourgogne Franche-Comté )

Auteurs : Yannick Benezeth

Titre : Remote heart rate variability for emotional state monitoring

POSTERS

Intervenant : Benjamin Allaert (Cristal, Univ. Lille 1)

Auteurs : Benjamin Allaert, Marius Bilasco, Chaabane Djeraba

Titre : Descripteur de mouvements locaux adapte? pour la reconnaissance de macro- et de micro-expressions

Intervenant : Ajili Insaf (IBISC, Evry-Val d'Essonne)

Auteurs : Ajili Insaf, Mallem Malik, Jean-yves Didier

Titre : Reconnaissance des gestes expressifs en se basant sur la méthode LMA.

Intervenant : Guillaume Devineau

Auteurs : Guillaume Devineau, Fabien Moutarde

Titre : Reconnaissance de Gestes de la Main par Apprentissage Profond

Intervenant : Cyril Meurie (IFSTTAR-COSYS-LEOST)

Auteurs : Cyril Meurie

Titre : Projet EVEREST : Evaluation des pERformances des systèmes vidEo pour la Sécurité des Transports guidés en montagne

Intervenant : Gaël Vila (CEA-Leti)

Auteurs : Gaël Vila, Christelle Godin, Oumayma Sakri, Simon Ollander, Etienne Labyt, Audrey Vidal, Sylvie Charbonnier, Aure?lie Campagne

Titre : Real-Time Monitoring of Traveller?s Psychological Stress

Intervenant : Duc-Canh Nguyen (Gipsalab)

Auteurs : Duc-Canh Nguyen, Gérard Bailly

Titre : Teaching socio-communicative behaviors for a humanoid robot by immersive teleoperation

Résumés des contributions

Résumés des interventions

Gregory Rogez : 3D human pose detection: deep architectures and training data

In this talk, I will show how 3D human pose estimation from monocular images can be tackled as a detection problem using a standard classifier. I will briefly present some of my previous work where classification approaches were used at different levels of the human body: full-body, upper body and hand pose. Then, I will present in more details our recent work on full-body pose estimation in the wild. I will discuss advantages and drawbacks of classification approaches and propose some solutions involving CNN architectures and training data synthesis.

David Picard : Human Pose Regression by Combining Indirect Part Detection and Contextual Information (https://arxiv.org/abs/1710.02322)

We propose an end-to-end trainable regression approach for human pose estimation from still images. We use the proposed Soft-argmax function to convert feature maps directly to joint coordinates, resulting in a fully differentiable framework. Our method is able to learn heatmaps representations indirectly, without additional steps of artificial ground truth generation. Consequently, contextual information can be included to the pose predictions

in a seamless way. We evaluated our method on two very challenging datasets, the Leeds Sports Poses (LSP) and the MPII Human Pose datasets, reaching the best performance

among all the existing regression methods and comparable results to the state-of-the-art detection based approaches.

Carlos Arango : Analysis and detection of facial micro-expressions uisng the Riesz pyramid".

"Facial micro-expressions (MEs) are fast and involuntary facial expressions which reveal people hidden emotions. ME spotting refers to the process of finding the temporal locations of rapid facial movements from a video sequence. However, detecting these events is difficult due to their short durations and low intensities. Also a differentiation must be made between MEs and eye-related movements (blinking, eye-gaze change, etc).

Taking inspiration from video magnification techniques, we design a workflow for automatically spotting MEs based on the Riesz pyramid. In addition, we propose a filtering and masking scheme that segment motions of interest without producing undesired artifacts or delays. Furthermore, the system is able to differentiate between MEs and eye movements. Experiments are carried out on two databases containing videos of spontaneous micro-expressions. Finally, we show that our method is able to outperform other methods from the state of the art in this challenging task."

Fabien Baradel : The role of articulated pose and visual attention for human action recognition

We address human action recognition from RGB and pose data and study the role of articulated pose for this application. In this talk, we describe two methods, both based on Deep Learning and recurrent visual attention mechanisms.

A first method is able to focus attention on relevant hands using high-levels features given by pose. Features from the pose are extracted using a convolutional model. A specific joint ordering, which respects the topology of the human body, ensures that different convolutional layers correspond to meaningful levels of abstraction. The raw RGB stream is handled by a spatiotemporal soft-attention mechanism conditioned on features from the pose network. A trainable glimpse sensor extracts features on set of predefined locations specified by the pose stream, namely the 4 hands of the two people involved in the activity. We show that it is of high interest to shift the attention to different hands at different time steps depending on the activity itself. State-of-the-art results are achieved on the largest dataset for human activity recognition, namely NTU-RGB+D.

A second method will be outlined very briefly, which is able to attract attention to specific regions of RGB videos without any need of pose data. These results raise the question whether articulated pose is the optimal intermediate representation for activity recognition.

Anis Kacem : Une nouvelle représentation spatio-temporelle dans le cône des matrices semi-définie positives pour la reconnaissance des expressions faciales

Dans ce travail nous nous intéressons au problème de reconnaissance des expressions faciales en se basant sur une analyse invariante aux variabilités temporelles des trajectoires de matrices vivant sur la variété Riemannienne des matrices semi-définie positives de rang fixe 2. Ces trajectoires sont obtenues en considérant l'évolution temporelle des matrices de Gram XX^t construites à partir des matrices originales des marqueurs de visages notées X. Nous avons développé des outils géométriques pour aligner, comparer et classer ces trajectoires tout en respectant la géométrie de l?espace où vivent ces trajectoires. L'approche proposée, testée sur quatre bases de données, a donné des résultats de reconnaissance compétitifs par rapport à ceux de la littérature tandis qu'elle n?exploite que l?information géométrique donnée par les marqueurs du visage.

Rahim Kadkhodamohammadi : Multi-view 3D Clinician Detection and Pose Estimation

In this work, we address the problems of person detection and pose estimation in Operating Rooms (ORs), which are key ingredients needed to develop many applications in such environments, like surgical activity recognition, surgical skill analysis and radiation safety monitoring. Because of the strict sterilization requirements of the OR and of the fact that the surgical workflow should not be disrupted, cameras are currently one of the least intrusive options that can be conveniently installed in the room to sense the environment. Even though recent vision-based human detection and pose estimation methods have achieved fairly promising results on standard computer vision datasets, we show that they do not necessarily generalize well to challenging OR environments. The main challenges are the presence of many visually similar surfaces, loose and textureless clinical clothes, clutter, occlusions and the fact that the environment is crowded. To address these challenges, we propose to use a set of compact RGB-D cameras installed on the ceiling of the OR. Such cameras capture the environment by using two inherently different sensors and therefore provide complementary information about the surfaces present in the scene, namely their visual appearance and their distances to the camera.

In this work, we propose a novel approach that takes into account dept and multi-view information to perform human detection and pose estimation. The proposed approach estimates body poses directly in 3D by relying on both color and depth images. We present a multi-view approach for 3D human pose estimation, which relies on depth data to reliably incorporate information across all views. A method is also introduced to automatically model a priori information about the OR environment for obtaining a more robust human detection model. To evaluate our approaches, we generate a multi-view dataset in operating rooms. We demonstrate very promising results on these datasets and show that our approaches outperform state-of-the-art methods on data acquired during real surgeries.

Yannick Benezeth : Remote heart rate variability for emotional state monitoring

Several researches have been conducted to recognize emotions using various modalities such as facial expressions, gestures, speech or physiological signals. Among all these modalities, physiological signals are especially interesting because they are mainly controlled by the autonomic nervous system. It has been shown for example that there is an undeniable relationship between emotional state and Heart Rate Variability (HRV). We will present a methodology to monitor emotional state from physiological signals acquired remotely. The method is based on a remote photoplethysmography (rPPG) algorithm that estimates remote Heart Rate Variability (rHRV) using a simple camera. We will first show that the rHRV signal can be estimated with a high precision. Then, frequency-feature of rHRV is calculated and we will show that there is a strong correlation between the rHRV feature and different emotional states. This observation is validated using data collected from 16 volunteers and video-induced emotions.

Benjamin Allaert : Descripteur de mouvements locaux adapté pour la reconnaissance de macro- et de micro-expressions

L?analyse des expressions faciales montre une grande efficacité dans le processus de reconnaissance de l?état affectif, notamment sur des bases de données où l?environnement est contrôlé et les expressions sont actées. Or, ces bases de données ne reflètent pas les conditions d?acquisitions dans un contexte d?interaction naturelle. Dans ces contextes, la présence de variations de pose, de changements lumineux et d?un large éventail d?expressions avec des intensités variables, rendent l?analyse difficile.

Dans ce contexte, nous concentrons notre attention sur l?analyse de la diversité des amplitudes des mouvements faciaux. Pour cela, nous portons un fort intérêt à l?étude des macro- et micro-expressions qui permettent de fournir un panel exhaustif de variations de mouvement au sein du visage. Les macro-expressions sont définies par des mouvement volontaires, caractérisées par des mouvements de forte intensité d?une durée comprise entre 0.5 et 4 secondes. Quant aux micro-expressions, elles sont souvent involontaires et durent une fraction de seconde, en moyenne entre 170ms et 500ms. Bien que ces mouvements soient très rapides et généralement non perceptibles pour l??il humain, les micro-expressions apportent de précieux renseignements sur l?état affectif d?une personne.

De nombreuses approches ont été proposées pour la reconnaissance des macro- expressions dans des séquences vidéo. Cependant, ces approches sont mal adaptées en présence des expressions de faible intensité ou courtes telles que les micro-expressions. Cela est principalement dû aux différents changements de texture induits en rapport avec l?intensité du mouvement. Bien que les approches récentes tendent à s?appuyer sur des techniques communes pour analyser les macro- et micro-expressions, il n?existe pas à ce jour une solution permettant de traiter les deux simultanément.

Nous proposons une approche unifiée pour l?analyse des micro- et macro-expressions en s?appuyant sur un caractérisation et un filtrage local des mouvements au sein du visage. Nous construisons notre filtrage en nous basant sur les lois physiques liées aux solides déformables (ici, les tissus biologiques : muscles, peau). La direction et l?intensité du mouvement sont conjointement analysés pour filtrer le mouvement et permettent d?obtenir un modèle cohérent du mouvement adapté pour le visage. Les expérimentations sur des bases de données telles que CK+ (96.99%) et CASME2 (69.41%) mettent en évidence l?adéquation de cette approche à la reconnaissance de macro- et de micro- expressions.

Ajili Insaf : Reconnaissance des gestes expressifs en se basant sur la méthode LMA.

Notre sujet porte sur la reconnaissance des gestes humaines dans une application robotique pour contrôler le robot NAO via des gestes ou des actions. On a utilisé une méthode nommée LMA Laban Movement Analysis qui permet de décrire l?aspect qualitative et quantitative des mouvements de la personne. Donc grâce à cette méthode on a pu reconnaître des gestes compliqués, similaires et aussi expressifs. Dans une deuxième étape on a intégré l?aspect émotionnel, ici le but final c?est de contrôler le robot avec des gestes expressifs, par exemple, on peut demander au robot d?avancer avec un geste mais avec plusieurs émotions (content, triste, fâché, et calme) et le robot est censé avancer et en même temps exprimer cette sensation avec les couleurs des leds au niveaux de ces yeux. Pour le moment on a réussi à avoir un système de reconnaissance des actions efficace avec un taux de reconnaissance élevé et actuellement on est dans l?étape de construire la base de données des gestes expressifs.

Guillaume Devineau : Reconnaissance de Gestes de la Main par Apprentissage Profond

Pour un être humain, le toucher et la gestuelle sont deux manières naturelles d?interagir avec son environnement. Le toucher suppose -par définition- un contact physique (par ex : écrire un message sur un téléphone avec ses doigts, attraper un objet physique, glisser la main sur du textile connecté, etc.). Le geste, en revanche, ne suppose pas obligatoirement de contact physique et permet des interactions à distance sans support (par ex. contrôler une télévision intelligente, sculpter des objets en réalité virtuelle ou augmentée, etc.).

A ce titre, des interfaces gestuelles homme-machine peuvent faciliter l?usage du numérique dans des situations qui présentent des contraintes matérielles comme l?interaction avec des objets physiques du quotidien qui ne comportent pas d?électronique embarquée (par ex. poignées de porte, tasses de thé, tournevis, miroirs, ...) ou l?usage de l?informatique dans des situations où l?utilisateur doit focaliser son attention sur une tâche précise (par ex. conduire une voiture, réaliser une opération chirurgicale).

Nous introduisons une nouvelle approche de reconnaissance de gestes en 3D basée sur un modèle d?apprentissage profond.

Le modèle que nous proposons utilise des données de squelettes 3D de mains, qu?il est possible d?obtenir directement (à des fréquences de 60 Hz par ex.) en sortie de dispositifs tels que la Leap Motion ou que la caméra de profondeur Intel RealSense. Notre modèle ne nécessite pas d?image couleur ou d?image de profondeur des mains.

Dans ce modèle, des réseaux de neurones convolutifs (CNN) parallèles (intra- et inter- canaux) sont utilisés pour traiter isolément chacune des séquences temporelles des (positions des) joints du squelette 3D de la main, dans le but d?obtenir des caractéristiques spatio-temporelles du mouvement de la main. Ces caractéristiques sont ensuite fusionnées par un réseau de neurones multi-couches (MLP) dans le but d?obtenir une classification du mouvement de la main. Nous notons que ce modèle, qui n?utilise pas de réseaux de neurones récurrents, fréquemment utilisés dans les papiers de l?état de l?art qui traitent des séquences temporelles, obtient des scores meilleurs que des modèles qui utilisent des réseaux de neurones récurrents (tels qu?un autoencodeur à deux GRU suivi d?un MLP, par ex.).

Expérimentalement, notre approche obtient les meilleures performances publiées à ce jour sur le jeu de données de reconnaissance de gestes de la main DHG dataset du SHREC 2017 3D Shape Retrieval Contest1.

Le modèle obtient une précision de 91.28% de précision (+3,04% d?amélioration par rapport à l?état de l?art précédent) dans le cas du DHG à 14 classes de gestes et une précision de 84.35% (+2,45% d?amélioration) dans le cas du DHG à 28 classes de gestes.

Cyril Meurie : Projet EVEREST : Evaluation des pERformances des systèmes vidEo pour la Sécurité des Transports guidés en montagne

Le projet EVEREST (http://everest.ifsttar.fr) vise à estimer la capacité des systèmes à base d?analyse d?images à assurer des fonctions d?aide à l?exploitation et de surveillance pour les transports guidés en montagne. Pour mener à bien cet objectif, nous avons créé une base de données vidéo réelles acquises sur différents sites expérimentaux et présentant différentes situations potentiellement dangereuses générées par un comportement inadapté des usagers ou simplement jouées par des acteurs. Cette base de données vidéo sera, à terme, annotée (de manière semi-automatique) et découpée en deux sous bases pour, d?une part, permettre aux acteurs du domaine (industriels, académiques...) de proposer des algorithmes de détection de situations à risques basés sur le traitement et l'analyse d?images et d?autre part, nous permettre de faire un état des lieux des algorithmes de détection d?événements potentiellement dangereux proposés par les participants à l?évaluation et en évaluer les performances.

Gaël Vila : Real-Time Monitoring of Traveller?s Psychological Stress

In the framework of the European H2020 BONVOYAGE project, CEA aims at developing algorithms able to automatically identify transport modes from smartphone sensors, as well as to monitor the traveller?s stress level during the trip from wearable sensors. From these different measures, the algorithm would automatically infer and evolve a user profile by learning from user?s previous travels. This traveller profile aims at improving the proposed travel solutions but also at optimizing the satisfaction level and comfort experienced by the traveller. As traveller?s stress levels are real time data, they can also be used to provide an on-trip assistance. For example, if a high stress level is detected for one traveller due to a traffic jam or a delay of train departure, BONVOYAGE platform can propose an alternative travel solution. The objective of this paper is to present a preliminary study conducted to assess the stress level experienced by one passenger during two long journeys.

To date, human stress levels have mainly been assessed in standardized laboratories or by using static settings. Only few studies consider ambulatory models. In our study, accelerometer measures and several physiological signals (Electrodermal activity, Blood volume pulse) were recorded using an Empatica E4 wristband during a participant?s travelling from Grenoble to Bilbao. During the journey, a home-made smartphone application regularly asked the user his current stress level. Based on the user?s feedback, two events of high stress (shortened delay for a train correspondence, challenging presentation), and one period of moderate activity with low stress were identified offline. Over these periods, feature extraction and machine learning were performed from collected sensor data according to user feedbacks in order to build a personalized model, with the user?s stress levels as output. Based on this model, a smartphone application has been developed in order to record and visualise the stress levels estimated using traveller?s physiological signals. This model was then applied during another travel from Grenoble to Brussels, to estimate and record the same user?s stress level in real time, on our smartphone application.

By design, this study represents a first step for real-life, ambulatory monitoring of stress levels during travels. This way, BONVOYAGE platform will be able to provide real-time tailored solutions to the traveller, which brings the service provider closer from consumer?s well-being.

Duc-canh : Teaching socio-communicative behaviors for a humanoid robot by immersive teleoperation

A socially assistive robot (SAR) is meant to engage people into situated interaction such as monitoring physical exercise, neuropsychological rehabilitation or cognitive training. While the interactive behavioral policies of such systems are mainly hand-scripted, we discuss here key features of the training of multimodal interactive behaviors by demonstration we developed in the framework of the SOMBRERO project. Immersive teleoperation of a SAR by professional caregivers enables these human pilots to teach how to monitor the interactive tasks while actually performing them, i.e. giving proper instructions, demonstrations, and feedbacks. We describe here how to make a multimodal interactive behavioral model; and how to build gesture controllers to execute events generated from this model to drive the speech, hand gestures, eyes of our iCub robot. We also proposed a framework to evaluate online the multimodal interactive of our SAR. We show that the evaluation framework allows to detect and reduce the robot?s faulty behaviors.

Identification

Journée Visage, geste, action et comportement

Inscriptions

Annonce

Annonce :

Programme

Résumés des contributions

Résumés des interventions

Gregory Rogez : 3D human pose detection: deep architectures and training data

David Picard : Human Pose Regression by Combining Indirect Part Detection and Contextual Information (https://arxiv.org/abs/1710.02322)

Fabien Baradel : The role of articulated pose and visual attention for human action recognition

Anis Kacem : Une nouvelle représentation spatio-temporelle dans le cône des matrices semi-définie positives pour la reconnaissance des expressions faciales

Rahim Kadkhodamohammadi : Multi-view 3D Clinician Detection and Pose Estimation

Yannick Benezeth : Remote heart rate variability for emotional state monitoring

Benjamin Allaert : Descripteur de mouvements locaux adapté pour la reconnaissance de macro- et de micro-expressions

Ajili Insaf : Reconnaissance des gestes expressifs en se basant sur la méthode LMA.

Guillaume Devineau : Reconnaissance de Gestes de la Main par Apprentissage Profond

Cyril Meurie : Projet EVEREST : Evaluation des pERformances des systèmes vidEo pour la Sécurité des Transports guidés en montagne

Gaël Vila : Real-Time Monitoring of Traveller?s Psychological Stress