Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions closes à cette réunion.
18 personnes membres du GdR ISIS, et 19 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 58 personnes.
L’action "Visage, geste, action et comportement" du GdR ISIS organise une journée sur l'analyse par vision artificielle de l'être humain le 11 décembre 2014 à Paris (amphi Jade à Télécom ParisTech).
Cette thématique de recherche englobe la modélisation, la perception visuelle et la reconnaissance des personnes, de leur actions, leurs expressions, leur caractéristiques gestuelles, émotionnelles et comportementales. Elle s'étend des traitements bas niveau, à partir de capteurs vidéo ou 3D, jusqu’à des méthodes d’apprentissage évoluées. Les applications concernent par exemple l'industrie du jeu, l'interaction homme-robot, la veille sur les personnes fragiles à domicile, la production cinématographique...
Cette journée vise à promouvoir des coopérations entre équipes nationales et internationales. Elle fera suite à la conférence IEEE Intelligent Human Computer Interaction (IHCI 2014, http://ihci2014.telecom-sudparis.eu) du 8 au 10 décembre 2014 à Évry (accès depuis Paris par le RER D).
Nous appelons des communications présentant des travaux de recherche théoriques et applicatifs sur les thèmes :
Les résumés des propositions (1/2 page environ) devront parvenir avant le 15 novembre 2014 à Patrick Horain (Patrick.Horain@telecom-sudparis.eu), Catherine Achard (catherine.achard@upmc.fr) et Rémi Ronfard (remi.ronfard@inria.fr).
P. Horain, C. Achard et R. Ronfard
9 h 50 – 10 h : Ouverture
10 h – 11 h 15 : Apprentissage et classification de gestes et actions
Estimation de pose et reconnaissance de gestes par deep learning structuré
Natalia Neverova, Christian Wolf, Graham W. Taylor, Florian Nebout
Rapid action localization for large scale video archives
Andrei Stoian, Marin Ferecatu, Jenny Benois-Pineau, and Michel Crucianu
Robotique d'assistance pour personnes atteintes de troubles cognitifs légers
Christophe Mollaret, Julien Pinquier, Isabelle Ferrane, Frédéric Lerasle
11 h 15 – 11 h 40 : Présentation orale des affiches (5 mn par affiche)
11 h 40 – 11 h 50 : Pause et mise en place des affiches
11 h 50 – 12 h 30 : Présentation des affiches
Différents schémas de fusion des caractéristiques géométriques et des caractéristiques de texture pour la reconnaissance des émotions
Sonia Gharsalli, Bruno Emile, Hélène Laurent, Xavier Desquesnes
Fouille de séquences de signaux non-verbaux pour l'expression d'attitudes sociales
Mathieu Chollet
Reconnaissance de gestes techniques pour la collaboration hommes-robots sur chaîne de montage en utilisant une caméra de profondeur
Eva Coupeté, Fabien Moutarde, Sotiris Manitsaris
La capture de mouvement et la reconnaissance des gestes techniques pour la gestion des savoir-faire – Cas d’étude : gestes de poterie
Alina Glushkova, Sotiris Manitsaris, Dimitri Goussios
Reconnaissance d'action dans les vidéos égocentriques (GoPro)
Vincent Buso, Jenny Benois-Pineau, Guillaume Bourmaud, Remi Megret, Yannick Berthoumieu
12 h 30 – 14 h : Déjeuner
14 h – 15 h 15 : Caractérisation de gestes et actions
Analyse multi-échelle de trajectoires de points critiques pour la reconnaissance d’actions humaines
Cyrille Beaudry, Renaud Peteri, Laurent Mascarilla
Approche géométrique pour la reconnaissance d’actions humaines à partir d’un capteur RGB-D
Rim Slama, Hazem Wannous, Mohamed Daoudi
Les géodésiques de formes pour la reconnaissance de gestes
Kamal Nasreddine, Abdesslam Benzinou
15 h 15 – 15 h 30 : Pause
15 h 30 – 16 h 20 : Détection et reconnaissance des émotions
Early Detection of Spontaneous Emotions using Grassmann Manifold
Taleb Alashkar, Boulbaba Ben Amor, Stefano Berretti, Mohamed Daoudi
Reconnaissance des expressions faciales par combinaison de classifieurs statique et dynamique
Arnaud Dapogny, Kévin Bailly, Séverine Dubuisson
16 h 20 – 16 h 30 : Clôture
16 h 30 : Fin
Natalia Neverova1, Christian Wolf1, Graham W. Taylor2, Florian Nebout3
1 LIRIS UMR CNRS 5205, INSA-Lyon, 2 Guelph University, 3 Awabot SASIn the context of multi-modal gesture detection and recognition, we propose a deep recurrent architecture that iteratively learns and integrates discriminative data representations from individual channels, modeling complex cross-modality correlations and temporal dependencies. Our framework integrates three data modalities: depth video, articulated pose and audio.
Our method is based on multi-scale and multi-modal deep learning. Each visual modality captures spatial information at a particular spatial scale (such as motion of the upper body or a hand), and the whole system operates at two temporal scales. Key to our technique is a training strategy which exploits i) careful initialization of individual modalities; and ii) gradual fusion of modalities from strongest to weakest cross-modality structure.
We present experiments on the "ChaLearn 2014 Looking at People Challenge" gesture recognition track organized in conjunction with ECCV 2014, in which we placed 1st out of 17 teams. The objective of the challenge was to detect, localize and classify Italian conversational gestures from large database of 13858 gestures. The multimodal data included color video, range maps and a skeleton stream.
Site : http://liris.cnrs.fr/christian.wolf/research/gesturerec.html
Andrei Stoian1, Marin Ferecatu1, Jenny Benois-Pineau2, and Michel Crucianu1
1 CEDRIC-CNAM, 2 LABRI-University of Bordeaux 1Searching large video archives has so far required manual text annotation to enable search by keywords. Our aim is to support searching such archives using queries based on example video clips containing meaningful human actions. Difficulties in searching by clips containing action examples include variability due to viewpoint, illumination, action duration changes and the massive size of the video archives to be searched.
We approach action detection using a cascade of classifiers applied to a fixed length temporal sliding window. We show how such queries can be performed rapidly and effectively by exploiting the complementarity between the aggregation of descriptors in a window and the comparison of windows as time series of frame descriptors.
The approach to be presented uses a cascade of two classifiers. In a first stage irrelevant candidates are quickly eliminated by a classifier on aggregated descriptions. Next, a feature selection algorithm is introduced that reduces the set of visual words in the description to a low number, but keeps discriminative power for a time series based classifier. In this stage we employ the Global Alignment kernel and train a one-class SVM classifier. The combination of low number of features, low number of support vectors and the filtering in the first stage accelerates the second stage.
We improve upon the state of the art on popular datasets and we introduce and show results on a novel video archive dataset for action localization that is two orders of magnitude larger than previous ones.
1 LAAS, 2 IRIT
La robotique d'assistance est un sujet de plus en plus étudié. Avec le vieillissement de la population, de plus en plus de personnes vont avoir besoin d'assistance à domicile. Cependant, ce service risque de devenir de plus en plus rare à cause d’un manque de personnel, un robot d'assistance pourrait devenir intéressant financièrement pour les tâches quotidiennes. Le projet RIDDLE s'attache à l’intégration de fonctionnalités d’assistance sur une plateforme robotique, pour les personnes atteintes de troubles cognitifs légers. En effet, ces personnes ont souvent tendance à perdre des objets de leur vie quotidienne (télécommande, lunettes, portefeuille, etc.), ce qui occasionne des délires de vol dont les personnes aidantes font les frais. De plus, ces personnes peuvent se sentir jugées par un regard extérieur lorsqu'elles commencent à oublier des choses.
Un robot serait donc tout indiqué pour face à ce type de situations. Une partie du marché s’oriente vers la robotique de service et une utilisation privée/personnelle. L'utilisateur pourra donc demander à volonté où se trouvent les objets égarés (ou d'autres informations) sans que le robot s’énerve et/ou que l'utilisateur se sente jugé.
Le robot développé dans ce projet se doit donc d'être non proactif. En effet, l'utilisateur étant chez lui, le robot ne doit pas être perçu comme un objet dérangeant. Pour cela, nous avons créé une mesure dite « d'intention de communication », pour permettre au robot de détecter le moment où l'utilisateur veut initier une phase d’interaction. Pour créer cette mesure, différentes modalités visuelles et vocales sont utilisées : un détecteur d'orientation de visage, un détecteur d'activité vocale, et un détecteur d'orientation des épaules. Lorsque l’utilisateur est orienté vers le robot et est en train de parler, nous faisons l’hypothèse que la volonté d’interaction est plus forte que lorsque l’utilisateur est orienté vers sa télévision par exemple. Une fenêtre temporelle glissante de 3 secondes permet d’effectuer la mesure.
Un scénario a été mis en place pour tester le fonctionnement de cette mesure. Dans ce scénario, le robot commence par entrer dans la pièce où se trouve l'utilisateur et essaye de le détecter. Une fois l'utilisateur détecté, le robot va dans une position de garage définie par l'utilisateur de manière à ce que le robot ne soit pas une gêne lorsqu'il ne bouge pas. De cette position, le robot va observer l'utilisateur de manière à détecter avec sa « mesure d'intention » si l'utilisateur veut communiquer ou pas. Enfin, une phase d’interaction débute, où le robot va s'approcher de l'utilisateur et répondre à ses requêtes. Lorsque l'utilisateur le décide ou que l’interaction prend fin, le robot retourne dans sa position de garage.
Ces travaux s’inscrivent dans le projet ANR RIDDLE, et est porté par un consortium composé des équipes RAP et MINC au LAAS-CNRS pour la perception de l'utilisateur et la localisation RF des objets respectivement, de l'équipe Samova de l'IRIT-UPS pour la reconnaissance vocale et le dialogue, de Magellium pour la création de la carte de l'environnement, d'Aldébaran-robotics pour le robot et la perception des objets, et enfin du Gérontopôle de Toulouse pour l'expertise médicale et l’aspect End-user.
Laboratoire PRISME - Université d'Orléans
L'analyse et la reconnaissance d'émotions sont devenues indispensables dans plusieurs domaines (sécurité, marketing, psychologie...). Les applications de reconnaissance des émotions se basent principalement sur deux types de méthodes pour l'extraction des caractéristiques faciales : celles basées sur des caractéristiques géométriques (forme du visage, positions des muscles...) et d'autres basées sur des caractéristiques de texture du visage. Ces deux types de méthodes présentent certaines limites (changement inter-personnes, émotions spontanées...). Dans ce travail, nous nous sommes intéressés à la fusion de ces deux types de méthodes selon différentes modalités, en vue d'améliorer la reconnaissance de chaque émotion. Nous présentons ainsi plusieurs types de fusion, que ce soit au niveau des caractéristiques (fusion des vecteurs caractéristiques), ou bien au niveau de la décision. Les expérimentations ont été menées à la fois sur des émotions simulées (base CK+) et spontanées (base FEEDTUM).
Mathieu Chollet
Institut Mines-Télécom ; Télécom ParisTech ; CNRS LTCIDans cette présentation, nous présentons un modèle d’expression d’attitudes interpersonnelles utilisant des séquences de signaux non-verbaux, pour l’utilisation par des Agents Conversationnels Animés (ACAs). Ce travail s’inscrit dans cadre du projet européen TARDIS que nous présenterons également. Le but de ce projet est de contribuer à réduire le risque d’exclusions de jeunes européens NEETs (Not in Employment, Education or Training), en construisant un jeu sérieux pour l’entraînement aux entretiens d’embauche, où des ACAs prenant le rôle de recruteurs virtuels. Les signaux sociaux des jeunes sont analysés en temps réel, et le scénario de l’interaction et l’attitude exprimée par les recruteurs s’adaptent en fonction de ceux-ci.
Pour construire le modèle d’expressions d’attitudes des recruteurs virtuels, nous avons annoté un corpus d’entretiens d’embauches réels obtenu dans le cadre du projet TARDIS à deux niveaux : le comportement non-verbal multimodal des recruteurs et l’attitude qu’ils expriment envers le candidat à l’offre d’emploi. Nous utilisons une méthode de fouille de données séquentielles afin d’extraire des séquences de signaux non-verbaux caractéristiques de différents types d’attitudes interpersonnelles du corpus multimodal annoté. A partir de ces séquences extraites, nous construisons des réseaux bayésiens pour la génération de nouvelles séquences de comportements exprimant une attitude. Recevant en entrée une phrase et une attitude à exprimer, ce modèle est ensuite utilisé pour calculer des séquences de signaux non-verbaux candidates alignées sur la phrase et pour choisir la séquence candidate la plus à même d’exprimer l’attitude donnée en entrée.
Le modèle a été évalué par le biais d’une étude en ligne où des utilisateurs devaient comparer des vidéos d’un ACA s’exprimant d’une part avec un modèle de comportement de référence, n’exprimant pas d’attitude interpersonnelle, et notre modèle. Les résultats de l’évaluation ont montré que notre modèle exprime les attitudes d’amicalité, dominance et inamicalité avec succès.
Eva Coupeté, Fabien Moutarde, Sotiris Manitsaris
Centre de Robotique CAOR Mines ParisTechAujourd’hui, l’utilisation de robots collaboratifs sur les chaînes de montage est une piste de plus en plus étudiée. Ils permettraient d’automatiser les usines et d’améliorer la productivité dans les ateliers de production industrielle. Sur certains postes, un partage du travail entre l’opérateur et le robot est effectué de manière à laisser les tâches à faible valeur ajoutée ou à l’origine de trouble musculo-squelettiques aux robots. Pour permettre aux opérateurs de travailler en toute confiance et en sécurité dans ces zones d’activités collaboratives il faut doter les robots d’intelligence afin qu’ils comprennent les événements qui surviennent autour d’eux, notamment les actions effectuées par l’opérateur.
Nous nous sommes donc intéressés à la reconnaissance des gestes techniques réalisés par l’opérateur pour permettre au robot de comprendre la tâche qui vient d’être effectuée afin d’anticiper sur ses actions, adapter son allure et réagir si un évènement anormal survient pour garantir la sécurité de l’opérateur.
Pour cela nous avons travaillé avec des cartes de profondeur issues d‘une Kinect. La caméra est placée avec une vue de haut afin d’être moins soumise aux occultations dues aux passages d’objets sur les lignes de montage et pour ne pas gêner l’opérateur dans ses mouvements. Des enregistrements ont été effectués dans des cellules expérimentales chez PSA Peugeot-Citroën.
Nous avons dans un premier temps réalisé une squelettisation de l’opérateur en s’inspirant de la méthode développée dans Schwarz et al., 2012 afin d’extraire les positions des mains et de la tête. De la reconnaissance « off-line » a été effectuée en utilisant des HMMs et donne des résultats prometteurs (94% de bonnes reconnaissances intra-opérateur, 85% de bonnes reconnaissances inter-opérateurs).
Dans nos futurs travaux nous comptons fusionner les données issues de la squelettisation avec des données issues de capteurs inertiels placés aux poignets des opérateurs et faire de la reconnaissance en temps réel.
* Cette recherche bénéficie du support de la CHAIRE « PSA Peugeot Citroën - Robotique et Réalité Virtuelle », portée par MINES ParisTech, et soutenue par PEUGEOT S.A.
Alina Glushkova1,2,3, Sotiris Manitsaris2,3,4, Dimitri Goussios2
1 Laboratoire des Technologies Multimédias et d’Infographie, Département d’Informatique Appliquée, Université de Macédoine, Grèce 2 Laboratoire d’Espace Rural, Département d’Aménagement, d’Urbanisme et de Développement Régional de l’Ecole Polytechnique de l’Université de Thessalie, Grèce 3 Centre de Robotique, MINES ParisTech, PSL Research University, France 4 Equipe Interaction Son, Musique, Mouvement, Institut de Recherche en Coordination Acoustique/Musique, FranceLa préservation et la transmission des savoir-faire traditionnels constituent un défi important autant pour l’Humanité de manière globale que pour les collectivités territoriales dont l’identité locale est souvent liée à ces savoirs. Pourtant une simple création d’un contenu multimédia ne suffirait pas pour la préservation de l’expertise gestuelle des artisans.
Dans ce contexte se place le projet de recherche « ArtiMuse », dont un des objectifs est de proposer un cadre méthodologique pour la mise en valeur des technologies de reconnaissance des gestes pour la préservation et la transmission du savoir-faire. Plus précisément il s’agit des gestes techniques ayant une expertise de haut niveau visant à préserver la gestuelle impliquée dans l’art de la poterie.
Pour cela, dans un premier temps, des capteurs inertiels ont été utilisés afin d’enregistrer les aspects cinématiques du savoir gestuel de deux experts, le premier provenant d’un village au Sud de la France et le deuxième étant également enseignant de poterie dans un Centre de Réinsertion Sociale en Grèce du Nord. Leur savoir est donc structuré autour d’un vocabulaire de gestes établi en collaboration avec eux.
Ensuite, l’hypothèse étudiée vise à explorer la possibilité d’apprendre à la machine de reconnaître en temps réel certains paramètres du savoir-faire gestuel, tels que ceux liés à la cinématique du geste, à l’aide de l’apprentissage statistique et de reconnaissance de gestes basés sur une approche hybride utilisant les Hidden Markov Models et les Dynamic Time Warping. L’apprentissage se fait avec un seul exemple par geste et la machine est capable de reconnaître différentes exécutions de quatre à six gestes variés. La validation de cette hypothèse est atteinte avec des taux moyens de précision à 98% et de rappel à 98,75%.
Ce travail constitue le premier pilier dans la création d’une interface pour l’apprentissage des gestes, basée sur le retour sensorimoteur qui contribuerait à l’ajustement du geste de l’apprenti en fonction du geste expert.
*Le projet de recherche est mis en œuvre dans le cadre de l’Action « Supporting Postdoctoral Researchers » du Programme Opérationnel « Education et Apprentissage à Vie » (Bénéficiaire de l’Action : General Secretariat for Research and Technology), et il est cofinancé par l’European Social Fund (ESF) et l’Etat Grec.
Vincent Buso, Jenny Benois-Pineau, Guillaume Bourmaud, Remi Megret, Yannick Berthoumieu
LaBRI (Laboratoire Bordelais de Recherches en Informatique)In this work we study the problem of detecting Activities of Daily Living (ADL) in first person camera view. Daily activities represent a challenging domain of the activity recognition task which are well-suited to an egocentric approach.
Driven by the consideration that an activity in first person videos can be defined as a sequence of manipulated objects inside different rooms, we present a novel representation based on the output of object and room detectors over temporal segments. In addition, our object detection approach is extended by automatic detection of visually salient regions since distinguishing active objects from context has been proven to dramatically improve performances in wearable ADL recognition.
We have assessed our proposal on a publicly available egocentric dataset and show extensive experimental results that demonstrate the approach outperforms current state of the art for such unconstrained scenarios.
Cyrille Beaudry, Renaud Peteri Et Laurent Mascarilla
Univ. La Rochelle, lab. MIANotre travail porte sur la reconnaissance d'actions humaines dans des vidéos. La méthode présentée est basée sur l'estimation du flot optique dans chaque séquence afin d'en extraire des points critiques caractéristiques du mouvement. Des trajectoires d'intérêt multi-échelles sont ensuite générées à partir de ces points critiques puis caractérisées fréquentiellement.
Le descripteur final de la vidéo est obtenu en fusionnant ces signatures fréquentielles de trajectoires avec des informations supplémentaires d'orientation de mouvement, de contour et de forme au voisinage des points critiques.
Ces informations s’avèrent être complémentaires et très caractéristiques des mouvements présents dans des vidéos.
Les résultats expérimentaux sur des bases de données avec et sans contraintes d’acquisition (KTH, Weizmann, UCF 11) montrent que la méthode proposée permet d'atteindre des taux de classification parmi les plus élevés de la littérature [1,2]. Contrairement aux récentes stratégies nécessitant des grilles denses de points d’intérêts, la méthode ne signe que le mouvement des points critiques du flot optique, ce qui permet une baisse du coût de calcul ainsi qu'une caractérisation plus qualitative de chaque séquence.
Les perspectives de ces travaux seront ensuite discutées, notamment celles portant sur la reconnaissance d’activités humaines et d’actions complexes.
Nos premiers résultats montre l’intérêt de considérer une action complexe (activités) comme un enchainement temporel séquentiel d’actions élémentaires (saut, marche, course, etc.) extraites par la méthode développée. Nous obtenons des trajectoires de probabilités d’actions élémentaires au cours du temps, qui se révèlent être très caractéristiques et descriptives des activités complexes étudiées.
[1] Action recognition in videos using frequency analysis of critical point trajectories. Cyrille Beaudry, Renaud Péteri, Laurent Mascarilla, IEEE International Conference on Image Processing 2014 (ICIP 2014), 27-30 October 2014, Paris, France. PDF.
[2] Reconnaissance d’actions dans des vidéos par caractérisation fréquentielle des trajectoires de points critiques. Cyrille Beaudry, Renaud Péteri, Laurent Mascarilla, 19th RFIA conference, 2-4 July 2014, Rouen, France. PDF.
Rim Slama, Hazem Wannous, Mohamed Daoudi
LIFL Laboratory, University of Lille 1 / Telecom LilleLes récents progrès dans les technologies informatiques permettent l’utilisation de nouveaux moyens d’interaction naturels et intuitifs avec les machines, comme l’interprétation des mouvements du corps humain. Les capteurs utilisés dans ces technologies, distants non-invasifs, sont utilisés dans des environnements coopératifs pour observer, évaluer ou réguler les activités individuelles ou d’un groupe d’individus sur de grandes périodes d’observation. Ils sont capables de générer en temps réel des séquences de positions 3D des articulations du corps humain ainsi que des cartes de profondeur des silhouettes humaines. Bien que les applications développées avec les capteurs RGB-D soient devenues très populaires ces dernières années (jeux vidéos, animation ...), elles ne sont pas encore capables d’analyser la sémantique des actions et des gestes.
Afin d’aborder ces différents challenges scientifiques et techniques, nous proposons dans une approche géométrique, de considérer la forme des poses humaines (ou les séquences des poses) en tant qu’objets mathématiques vivant dans des variétés Riemanniennes. Avec une telle considération, nous nous intéressons à la géométrie de l’espace afin de caractériser chaque mouvement par une structure intégrant la nature intrinsèque des données.
Ce travail concerne l’analyse des mouvements humains et de reconnaissance d’actions et de gestes à partir de vidéos produites par des capteurs de profondeur. Nous nous intéressons plus particulièrement à une représentation géométrique et efficace des séquences de squelettes 3D. Dans cette approche, une action est représentée par un système dynamique dont la matrice d’observabilité est caractérisée par un élément de la variété de Grassmann. Par conséquent, la reconnaissance d’actions est reformulée en un problème de classification de points sur cette variété. Ensuite, un nouvel algorithme d’apprentissage basé sur la notion d’espaces tangents est proposé. Les résultats de cette approche, testés sur plusieurs bases de données publiques, donnent des taux de reconnaissance de haute précision et de faible latence.
Kamal Nasreddine, Abdesslam Benzinou
Ecole Nationale d'Ingénieurs de Brest, LabSTICC, CNRS UMR 6285Nous avons développé des schémas de recalage robuste de signaux et d’images, ainsi qu’une mesure de similarité efficace pour la reconnaissance de formes (classification et recherche). L’approche de recalage a été adaptée pour le recalage de courbes 2D et la reconnaissance de formes à partir de leur contour. Cette approche est basée sur la minimisation d’une fonction de coût issue de l’analyse des géodésiques dans l'espace de formes. La mesure de similarité issue du recalage des contours est exploitée pour la reconnaissance de formes. Le recalage de contours 2D est aussi appliqué pour établir des analyses statistiques (forme moyenne et variance) qui permettent de représenter les variabilités observées sur les formes. L'efficacité de ces outils développés a été déjà démontrée en utilisant des images de référence (base de test MPEG-7) et à partir de quelques images biomédicales et de la biologie. Dans cette présentation nous présentons les tests de nos approches sur une base de gestes (Gestures) dans le but de reconnaissance. Les performances de notre approche dans la reconnaissance des gestes dépassent nettement les résultats obtenus avec les autres méthodes auparavant testés sur la même base.
Arnaud Dapogny1, Kévin Bailly1, Séverine Dubuisson2
1 Institut des Systèmes Intelligents et de Robotique (ISIR-UPMC) 2 Laboratoire d'Informatique de Paris 6 (LIP6-UPMC)L'analyse automatique des émotions du visage constitue un enjeu important pour une interaction homme-machine riche. Les applications sont multiples, de l'animation d'avatars à la surveillance de comportements, en passant par le e-learning.
Toutefois, la reconnaissance statique des émotions, c'est-à-dire à partir d'images fixes, constitue une tâche complexe en général. Par exemple, il n'est pas toujours possible de déterminer si une personne fronçant les sourcils est réellement en colère ou s'il s'agit d'une particularité morphologique. L'ambiguïté peut en revanche être levée si l'on dispose d'une référence neutre de la même personne, ou si l'on observe la dynamique de la déformation faciale. Pour cela, les approches dites dynamiques impliquent en général un a priori de pré-segmentation des séquences d'émotion, lesquelles doivent évoluer d'une représentation neutre vers une émotion spécifique. Malheureusement, une telle hypothèse n'est en général pas transposable à des scénarios plus réalistes, où il faut traiter simultanément la segmentation d'une séquence et la reconnaissance à proprement parler.
Afin de pallier à ce problème, nous proposons une nouvelle méthode pour la reconnaissance d'émotions à partir de séquences vidéos reposant sur l'application conjointe de classification statique et de transition. Chacun de ces classifieurs combine un ensemble de primitives géométriques et d'apparence pour une prédiction robuste des probabilités des différentes classes d'émotion. Ces probabilités sont ensuite estimées pour différents intervalles temporels et fusionnées entre elles. Le présent travail propose ainsi un système complet pour la reconnaissance d'émotions à partir de séquences vidéo, lequel améliore l'état de l'art sur plusieurs bases de données (CK+, BU-4DFE) sans toutefois nécessiter de contraintes portant sur la pré-segmentation des séquences, ou tout autre traitement ne pouvant être mis en œuvre dans le cadre de scénarios de reconnaissance en temps réel.
Taleb Alashkar, Boulbaba Ben Amor, Stefano Berretti, Mohamed Daoudi
MIIRE research group, LIFL, LilleIn this work, we propose a new framework for early emotion detection from low-resolution depth sequences. The challenge of the proposed scenario is detecting the emotional states using the upper part of the body which can be more informative than using the face alone in such application. Using depth sequences acquired using Kinect-like sensors for solving this problem is a new direction to overcome color videos challenges. In order to face these challenges, depth videos from the Cam3D Kinect database are decomposed into subsequences. Each subsequence is modeled as a linear subspace derived from the depth values of successive frames. Thus, each subsequence is mapped to a Grassmann manifold and 3D sequences are viewed as trajectories. Sequential analysis of a given trajectory results in a dynamic signature termed Geometric Motion History (GMH). An early event detector based on Structured Output SVM is then applied to learn and detect the emotion of interest. To validate this approach, it was applied to detect two different emotional states Happiness and Thinking/Unsure. The proposed approach gives promising results on Cam3D dataset of segmented spontaneous emotions. A comparison between the upper part of the body and the face region shows the relevance of using the upper body part instead of the face. The main contributions of our work are: (1) Proposing new spatio-temporal features over the Grassmann Manifold called Geometric Motion History; (2) Exploiting the dynamics of the upper part of the body to understand the emotions; (3) Considering the depth videos instead of color data to capture the upper body motions for this application.
Date : 2014-12-11
Lieu : Paris (amphi Jade à Télécom ParisTech)
Thèmes scientifiques :
B - Image et Vision
Inscriptions closes à cette réunion.
(c) GdR IASIS - CNRS - 2024.