Journée sur l'analyse vidéo de l'être humain

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

27 personnes membres du GdR ISIS, et 0 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 50 personnes.

Annonce

Bonjour,

L’action "Visage, geste, action et comportement" du GdR ISIS organise une journée sur l'analyse vidéo de l'être humain à Paris, le 2 juillet, couvrant à la fois des travaux de recherche théoriques et applicatifs. L'objectif de la journée est d'explorer les problématiques liées à la perception de l'homme par vision artificielle, et en particulier les avancées obtenues avec les nouveaux capteurs 3D actifs (temps de vol et triangulation : Kinect…).

Ces problématiques font appel à un domaine de recherche très vaste, allant des traitements bas niveau jusqu’à des méthodes d’apprentissage évoluées, par exemple pour reconnaître des actions ou des émotions. Un des buts de cette journée est de promouvoir des coopérations méthodologiques entre équipes de recherche au niveau national et européen.

Nous appelons des communications sur les thèmes :

Visage : détection/localisation/modélisation 3D de visages, reconnaissance d’expressions faciales, d’émotion.
Geste : détection d’objets (parties du corps), acquisition du mouvement humain (posture), suivi et modélisation des gestes, reconnaissance de gestes et d'actions.
Perception multimodale : fusion d’informations et de capteurs, interprétation
Modélisation du comportement : modélisation du comportement d'une personne, d'une dyade (synchronie, imitation),
Applications...

Les résumés des propositions (1/2 page environ) devront parvenir à Catherine Achard (catherine.achard@upmc.fr) et Patric Horain (Patrick.Horain@telecom-sudparis.eu) avant le 18 juin 2012.

A bientôt,

Catherine Achard, Patrick Horain et Rémi Ronfard

Programme

9h20-9h30

Introduction de la journée

9h30-10h10

Reconnaissance d'expressions faciales dans des séquences vidéos 3D en utilisant une approche basée sur la géométrie différentielle

Hassen Drira, Ahmed Maalej, Boulbaba ben Amor et Mohamed Daoudi

LIFL, université Lille1, Institut Mines-Télécom, Télécom Lille1, LIFL UMR CNRS 8022

10h10-10h50

Modèles d'Apparence Multi-Noyaux

Vincent Rapp, Kevin Bailly et Lionel Prevost.

ISIR, Université Pierre et Marie Curie

10h50-11h30

Détection automatique de chutes dans le contexte de la compression vidéo adaptative embarquée dans une caméra intelligente

I. Charfi, J. Mitéran, J. Dubois, W. Elhamzi, M. Atri

Laboratoire Le2i – UMR 6306 - Laboratoire EμE LAB IT-06

11h30-13h00

Session

poster

Détection de Visages sur Images Omnidirectionnelles

Y. Dupuis, X. Savatier, J.Y. Ertaud, P. Vasseur

IRSEEM, LITIS Lab

Reconnaissance multimodale d’émotions par méthodes hors contact : extraction de signaux physiologiques par caméra.

Frédéric Bousefsaf, Choubeila Maaoui, Alain Pruski

LASC - Université de Metz

Visual Observation of Human Emotions

Varun Jain, James Crowley

Université de Grenoble, INRIA Grenoble Rhône Alpes, INP

Utilisation de la distance géodesique pour l'estimation de la pose des mains sur des images de profondeur type kinect

B. Marcotegui, V. Morard, A. Serna, E. Decencière

Mines ParisTech, CMM- Centre de Morphologie Mathématique,

Détection et la reconnaissance de gestes emblématiques

Ilaria Renna

ISIR, Université Pierre et Marie Curie

Reconnaissance d’actions basée sur les trajectoires des articulations.

Adrien CHAN-HON-TONG

CEA/LIST/DIASI/LVIC

Unsupervised Action Recognition and Imitation Measurement

Koby Karp, Stéphane Michelet

ISIR, Université Pierre et Marie Curie

Acquisition 3D des gestes par vision artificielle et restitution virtuelle

David Antonio Gómez Jáuregui, Patrick Horain

Institut Mines-Telecom / Telecom SudParis / EPH

13h00-14h30

PAUSE DEJEUNER

14h30-15h00

Compact Spatio-Temporal Correlograms based on Maximized

Mutual Informations for Human Action Classification

A.Q. Md Sabri, J. Boonaert, S. Lecoeuche & E. Mouaddib

Ecole des Mines de Douai and University Picardie Jules Verne, Amiens

15h30-16h00

Extraction et l’analyse du comportement humain à partir des flux vidéo

Jean Martinet

Université de Lille

16h00-16h30

Décomposition et Apprentissage de Motifs invariants à la translation et à la Rotation 3D appliqués à des signaux de mouvements

Quentin Barthélemy, Anthony Larue (orateur prévu), et Jérôme Mars

GIPSA-Lab

16h30-17h00

What happens when software watch behind the screen ?

Benoit Lange, Nancy Rodriguez, William Puech, Xavier Vasques

LIRMM

Résumés des contributions

Reconnaissance d'expressions faciales dans des séquences vidéos 3D en utilisant une approche basée sur la géométrie différentielle

Hassen Drira, Ahmed Maalej (LIFL, université Lille1)

Boulbaba ben Amor et Mohamed Daoudi (Institut Mines-Télécom, Télécom Lille1, LIFL UMR CNRS 8022)

Nous présentons une approche entièrement automatique pour la reconnaissance d'expressions faciales à partir de séquences vidéos 3D. En se basant sur la géométrie différentielle, nous proposons un nouveau un champ scalaire de déformations qui permet d'extraire les déformations entre les visages affichant des expressions différentes. Les caractéristiques pertinentes sont extraites à partir de ce champ de déformations par le biais de LDA pour servir à l'apprentissage d'un modèle dynamique basé sur HMM. Les expérimentations menées sur la base BU-4DFE en suivant le même protocole expérimental de l'état de l'art montrent l'efficacité de notre approche.

What happens when software watch behind the screen ?

Benoit Lange, Nancy Rodriguez, William Puech, Xavier Vasques

LIRMM

1 Introduction

Computer science is a quick evolving domain; hardware capabilities have an exponential growth. IT systems are surrounding human environment, but manipulation of these systems is not evolving as fast as systems themselves. Van-Dam has proposed an evolution of WIMP paradigm in [Van Dam 1997], called Post-WIMP. Direct manipulation from user is the mainstream of this paradigm. This paradigm emerged in 1997, but it was not adopted at this time, WIMP paradigm still dominate personal computer interfaces. New devices interfaces have been developed around Post-WIMP. The WIImote is the most popular device using this paradigm, it is used with WII nintendo console. This device is composed by: acceleration sensors and an IR video camera, used to recognize user motion. Other commercial game products have been developed around Post-WIMP paradigm: Kinect from Microsoft, PSeyes from Sony, Surface from Microsoft. Most of these devices were created to propose new interaction experiences. Research have also proposed some Post-WIMP devices, Han in [Han 2005] presented a low cost multi touch table, able to catch touch gestures from user. Mistry developed a wearable augmented reality device in [Mistry and Maes 2009]. In this paper, we will focus on interface plasticity. This concept was introduced by Thevenin and Coutaz in [Thevenin and Coutaz 1999]. The goal is to adapt user interface by listening to context, users and environment. Some work using a similar method already exist: [Richter 2012], the system use shoes recognition to adapt user interface. In this paper, we are presenting a smart Window Manager (WM), designed to interpret the content of what is behind the screen.

2 Our Approach

Collaboration between different users have always been an important field of researches. People working in group generally use large screens in order to work on data. However, operating systems does not deal efficiently with automatic layout of windows from different applications. Furthermore, collaborative manipulation of interface objects is slightly supported. On a standard architecture, only one pointer is used to manipulate windows. Nowadays, most used OS support multi cursor WM, but software does not take advantage of this facility. This work is a part of RIDER (Research for IT Driven EneRgy efficiencies) project. The RIDER project is a collaborative project leaded by IBM Montpellier, France. The goal is to produce a green box (green boxes are sustainable black boxes) to monitor, analyze, predict and give advices on building energy behavior. The green box encapsulate a core model monitored by a rule’s engine. Additional components extending this core with new features or model’s updates updates can be plugged. Our visualization software is based on VA (Visual Analytics) paradigm, it displays information from the core, but also proposes updates or new informations to enrich the model. This visualization software is designed to run on large screen display. We propose a smart Window Manager: it is compatible with any software and have data knowledge. To create this knowledge, it is equipped by a video camera depth sensor to extract information from behalf the screen. Location of users can be extracted and also information about point of interest area: hand tracking is possible and gestures can be recognized. As in games, almost any action from users can be converted to OS interaction. To extract information, WM use a depth image and a RGB camera. The depth image is used to extract morphological information and the location of his body; the RGB camera is used to provide colorimetric information about users. This system will recognize a special pose of body to start tracking. The manipulation pipeline is define below:

- Skeleton calibration: we use a special pose for user (that we called ”phi”) to find the user’s blob (Binary large object),

- Skeleton tracking: we track the calibrated blob and extract skeleton parts,

- Gesture recognition: when user moves, the WM tracks him and analyzes his movements,

- Events are dispatched to software: events are transmitted to each listening application.

OurWMis suitable with collaborative work, different users can use the system at the same time; the number of users is limited by the room space. Our WM has two different layout methods, the first method is based on a tree map and the second method is based on movement of users. The first method is a standard screen partitioning method. The system will partition space depending from these informations. Location of each window can be computed easily, depending from the number of windows and location of center of mass of each user. The second placement method is based on user tracking. Each window is defined by it own information (width and height). We extract the center of the mass of each user, and then we map movement of this point on center of the window. Users can interact with each other user by bringing their windows with them. An interesting point is on window manipulation. Our WM dispatch hands information to the destination window. Hands information are used as mouse cursors, special gestures are recognized to trigger actions. To recover events from each hand, our system use TUIO (a multitouch protocol for tangible user interfaces,[Kaltenbrunner et al. 2005]). Applications can also only use hand location as a normal OS cursor.

References

- HAN, J. 2005. Low-cost multi-touch sensing through frustrated total internal reflection. In Proceedings of the 18th annual ACM symposium on User interface software and technology, ACM, 115–118.

- KALTENBRUNNER, M., BOVERMANN, T., BENCINA, R., AND COSTANZA, E. 2005. Tuio - a protocol for table based tangible user interfaces. In Proceedings of the 6th International Workshop on Gesture in Human-Computer Interaction and Simulation (GW 2005).

- MISTRY, P., AND MAES, P. 2009. Sixthsense: a wearable gestural interface. In ACM SIGGRAPH ASIA 2009 Sketches, ACM, 1.

- RICHTER, S., H. C. B. P. 2012. Bootstrapper: Recognizing tabletop users by their shoes. In CHI 2012, ACM, no. 4.

- THEVENIN, D., AND COUTAZ, J. 1999. Plasticity of user interfaces: Framework and research agenda. In Proceedings of INTERACT, vol. 99, 110–117.

- VAN DAM, A. 1997. Post-wimp user interfaces. Communications of the ACM 40, 2, 63–67.

Décomposition et Apprentissage de Motifs invariants à la translation et à la Rotation 3D appliqués à des signaux de mouvements

Quentin Barthélemy, Anthony Larue (orateur prévu), et Jérôme Mars

GIPSA-Lab

Un nouveau modèle pour décrire des objets tri-dimensionnels (3D) variants dans le temps est proposé. Ce travail s’intéresse aux trajectoires des différents points de l’objet en fonction du temps et propose une méthode de décomposition spécifique. L’objet étudié est vu comme une combinaison linéaire de motifs 3D capables de tourner. Le modèle résultant est donc invariant à la rotation 3D (3DRI). De plus, les motifs temporels sont considérés comme invariants à la translation temporelle. Enfin, les motifs utilisés peuvent être quelconque et nous avons ainsi à faire à une décomposition sur un dictionnaire redondant.

Cet exposé est composé de deux parties basées sur ce modèle.

D’une part, la décomposition 3DRI estime les motifs actifs, leurs coefficients, leurs rotations et leurs positions temporelles. S’appuyant sur le principe d’approximation parcimonieuse, nous proposons de résoudre par deux optimisations non-convexes : le 3DRI Matching Pursuit (3DRI-MP) et le 3DR Orthogonal Matching Pursuit (3DRI-OMP).

D’autre part, nous présenterons une méthode d’apprentissage des motifs invariants à la rotation 3D à partir d’un ensemble de données grâce à l’algorithme d’apprentissage de dictionnaire 3DRI (3DRI-DLA).

Les méthodes présentées sont d’abord appliquées à des données simulées afin d’évaluer leurs performances et de les comparer à d’autres algorithmes en terme de capacité d’estimation et de qualité de reconstruction. Ensuite, elles sont appliquées à des données de mouvements réels de Langage Parlé-Complété (LPC). Le but est d’extraire et d’apprendre des motifs 3D caractéristiques de ce langage gestuel.

Détection de Visages sur Images Omnidirectionnelles

Y. Dupuis, X. Savatier, J.Y. Ertaud, P. Vasseur

IRSEEM, LITIS Lab

Les capteurs de vision omnidirectionnelle (fisheye, catadioptrique... ), longtemps réservés au domaine de la robotique mobile autonome, se sont démocratisés et voient leur champ d’application s’étendre : télésurveillance, visioconférence, interface homme-machine, etc.. Ils restent difficiles à exploiter car la scène capturée est fortement déformée et les régions d’intérêt peuvent être de très petites tailles. La détection d’objet, et notamment la détection de visage, utilise des approches de type régions qui ne sont donc plus applicables sur les images omnidirectionnelles. Il faut alors introduire une étape de dépliement pour générer une image panoramique visant à retrouver les propriétés géométriques des images perspectives. Nos recherches ont démontré que cette approche est erronée d’un point de vue conceptuel mais aussi pratique. Nous avons démontré que l’image omnidirectionnelle peut être traitée telle quelle réduisant ainsi le temps de calcul. De plus, nos résultats récents ont démontré que les performances de détection sont meilleures avec une approche directe du problème. La présentation abordera les thémes suivants : dans un premier temps, nous caractériserons les déformations induites pour les images omnidirectionnelles ; ensuite, nous démontrerons les problèmes causés par le dépliement des images ; dans un troisiéme temps, nous présenterons la méthode que nous avons développée pour détecter des visages sur les images omnidirectionnelles.

Reconnaissance d’actions basée sur les trajectoires des articulations.

Adrien CHAN-HON-TONG, Laurent Lucas, Catherine Achard, Patrick Sayd

CEA/LIST/DIASI/LVIC

Nous présentons un algorithme capable de classifier des actions humaines dans des séquences segmentées de « capture de mouvements ». L’entrée de notre algorithme est une séquence de positions (dans le monde 3D) pour chacune des articulations de la personne suivie. ’obtention de ce type d’information, sans utiliser de marqueur (gênant l’activité libre de la personne uivie), a connu une avancée significative grâce aux nouveaux capteurs 3D actifs (Kinect…). Les actions sur lesquelles on se concentre sont des actions comme « serrer la main, embrasser, ouvrir un placard, boire, couper en dés des aliments, mélanger des aliments… ». Ce sont des actions intermédiaires entre les actions complexes comme « saluer, se servir à boire, cuisiner» et les actions élémentaires « lever le bras, déplacer sa main vers sa tête, faire un pas, sauter ».

Notre algorithme est de type « sac-de-mot ». Les actions intermédiaires sont modélisées comme un ensemble d’actions élémentaires sans sémantique, elles-mêmes représentées par une courte trajectoire (1/2 secondes soit 15 images) d’une des articulations de la personne d’intérêt.

Un SVM est alors utilisé pour associer à une distribution de courtes trajectoires (capturée par un histogramme) une classe d’actions.

Notre algorithme a été testé notamment sur le jeu de données TUM où nous obtenons un taux de 85% de classification correcte.

Détection automatique de chutes dans le contexte de la compression vidéo adaptative embarquée dans une caméra intelligente

I. Charfi, J. Mitéran, J. Dubois, W. Elhamzi, M. Atri

Laboratoire Le2i – UMR 6306 - Laboratoire EμE LAB IT-06

Introduction

Les applications liées à la vidéo assistance nécessitent une bande passante élevée notamment lorsque la sortie est composée d’informations à la fois bas niveau (pixel, image) et haut niveau (informations extraites automatiquement, comme le nombre de personnes présentes dans la scène, la détection d’événements inhabituels de type chute, etc.). Dans ce contexte, nous étudions un système de détection de chutes adapté à une implantation matérielle permettant de réduire la bande passante finale nécessaire (compression vidéo adaptative). En effet, l’analyse de l’évolution de la scène permet d’adapter la compression dynamiquement en fonction des besoins pour lesquels différents taux de compression peuvent être affectés [1]. Nous présentons ici la partie dédiée à la détection automatique de chutes, au cours de laquelle nous étudions les performances d’attributs issus de la transformée de Fourier ou des ondelettes combinés avec des classifieurs de type SVM et Boosting.

Principe

La détection est basée sur une élimination de l’arrière plan, un suivi de la personne en mouvement et l’extraction d’attributs de premier niveau (moments, caractéristiques de la boîte englobante, etc.). Au total 14 attributs sont définis puis réduits à 7 par sélection d’attributs de type « Sequential Backward Floating Selection » (SBFS). Une chute étant caractérisée par une variation brutale de certains de ces attributs, nous avons appliqué différentes transformées (dérivées première et seconde, FFT et transformée en ondelette). Les données brutes et ces transformées, calculées sur une fenêtre temporelle glissante (dont nous avons étudié la taille optimum) forment des attributs de second niveau constituant le vecteur d’entrée du classifieur, qui donne une décision pour cette plage d’images. Nous appliquons de plus à la sortie du classifieur une règle temporelle prenant en compte 18 décisions successives, ce qui correspond à la durée moyenne d’une chute.

Nous avons constitué une base de vidéos annotées comprenant des chutes et des situations diverses afin de réaliser l’apprentissage puis l’évaluation de la méthode, ainsi que la recherche de la meilleure combinaison possible d’attributs. Afin d’évaluer la robustesse de la méthode au changement de point de vue et d’environnement, les vidéos ont été enregistrées dans 4 locaux différents.

Résultats expérimentaux

Les résultats expérimentaux préliminaires nous permettent de conclure que dans le cas des SVM, la meilleure combinaison d’attributs est constituée des données brutes et de la dérivée première. Dans ce cas, le meilleur résultat obtenu est une seule fausse alarme constatée sur l’ensemble des vidéos, alors que toutes les chutes sont détectées. Lorsque le test est réalisé sur des vidéos d’un environnement qui n’a jamais été appris, le nombre de fausses alarmes passe à 4 (rappel : 0.89, précision : 0.94).

Dans le cas du Boosting, seuls 89 attributs sont automatiquement sélectionnés. Les performances finales sont très proches des SVM, (rappel : 0.86, précision : 0.96) et beaucoup mieux adaptées à une implantation matérielle de type FPGA, puisque la fonction de décision est constituée de simples comparateurs qui peuvent être largement parallélisés [2].

Conclusion

Les contributions de ce travail sont : la constitution d’une base de 200 vidéos annotées, enregistrées en plusieurs endroits ; une analyse de la trajectoire et de la déformation de la forme en mouvement réalisées directement par le classifieur, laissant ce dernier prendre en compte l’aspect temporel de la chute, contrairement à [3], [4] ; une comparaison en faveur du Boosting qui permet, à performances de classification comparables, d’envisager une implantation matérielle complète sur FPGA à faible coût, compatibles avec nos objectifs initiaux d’intégration de l’ensemble dans une caméra intelligente.

Références

- [1] W. Elhamzi, J. Dubois, J. Mitéran, M. Atri, R. Tourki, "Hardware implementation of a configurable motion estimator for adjusting the video coding performances", ACIVS, septembre 2012.

- [2] J. Mitéran, J. Matas, E. Bourennane, M. Paindavoine, J.Dubois, "Automatic Hardware Implementation Tool for a Discrete Adaboost-Based Decision Algorithm", EURASIP Journal on Applied Signal Processing, 2005, pp 1035-1046.

- [3] C. Rougier, J. Meunier, A. St-Arnaud, J. Rousseau, "Robust Video Surveillance for Fall Detetion Based on Human Shape Deformation",IEEE Transactions on Circuits and Systems for Video Technology, 2011, pp 611-622.

- [4] A. Hervieu, P. Bouthemy, J.P. Le Cadre, "Reconnaissance d'évènements vidéos par l'analyse de trajectoires à l'aide de modèles de Markov", Traitement du signal, 2009, pp 187-197.

Détection et la reconnaissance de gestes emblématiques

Ilaria Renna, Ryad Chellali

ISIR, Université Pierre et Marie Curie

Les robots sont des agents artificiels qui peuvent agir dans le monde des humains grâce aux capacités de perception. En particulier, les robots compagnons sont censés communiquer avec les humains d’une manière naturelle et intuitive: l’une des façons les plus naturelles est basée sur les gestes et les mouvements réactifs du corps.

Nous proposons un cadre permettant la détection et la reconnaissance des gestes emblématiques. La question la plus difficile dans la reconnaissance des gestes est de trouver de bonnes caractéristiques avec un pouvoir discriminant (faire la distinction entre différents gestes) et une bonne robustesse à la variabilité intrinsèque des gestes (le contexte dans lequel les gestes sont exprimés, la morphologie de la personne, le point de vue, etc). Dans ce travail, nous proposons un nouveau modèle de normalisation de la cinématique du bras reflétant à la fois l’activité musculaire et l’apparence du bras quand un geste est effectué. Les signaux obtenus sont d’abord segmentés et ensuite analysés par deux techniques d’apprentissage : les chaînes de Markov cachées et les Support Vector Machine. Les deux méthodes sont comparées dans une tâche de reconnaissance de 5 classes de gestes emblématiques. Les deux systèmes présentent de bonnes performances avec une base de données de formation minimaliste quels que soient l’anthropométrie, le sexe, l’âge ou la pose de l’acteur par rapport au système de détection.

Utilisation de la distance géodesique pour l'estimation de la pose des mains sur des images de profondeur type kinect

B. Marcotegui, V. Morard, A. Serna, E. Decencière

Mines ParisTech, CMM- Centre de Morphologie Mathématique

Des capteurs 3D temps réel sont commercialisés aujourd'hui à des tarifs abordables par le grand public. Combinés à un module de reconnaissance gestuelle, ils permettent le développement d'interfaces ergonomiques et robustes. Des nombreux travaux se sont intéressés à l'estimation de la pose du corps humain, fournissant la position d'un ensemble de points caractéristiques de son squelette. Leur position relative permet l'interprétation du geste réalisé par l'utilisateur.

Dans cette présentation nous nous intéressons à détailler la pose de la main. En effet, l'image de profondeur est suffisamment précise pour détecter non seulement la position des mains, mais également celle des doigts (voir figure ci-dessous).

Dans un premier temps, la recherche d'extrémités sur un masque binaire de la silhouette de l'utilisateur fournit une bonne localisation des extrémités des doigts 1(a) et (b). Par contre, si la main passe devant le buste ou le visage, le calcul d'extrémités sur un masque binaire n'est plus suffisant pour en déduire la position des doigts (voir figure 1(d)). Nous proposons l'utilisation d'une distance géodésique contrainte par l'image de profondeur (figure 1(e)). Nous observons une bonne localisation des doigts, même s'ils sont projetés sur la silhouette de l'utilisateur.

Figure 1: Détection d'extrémités basée sur la distance géodésique.

Remerciements : Nous remercions V. Weistroffer pour l'acquisition des images.

Reconnaissance multimodale d’émotions par méthodes hors contact : extraction de signaux physiologiques par caméra.

Frédéric Bousefsaf, Choubeila Maaoui, Alain Pruski

LASC - Université de Metz

La reconnaissance des émotions présente un fort intérêt dans de nombreux domaines. Dans cet objectif, l’exploitation des mesures physiologiques est reconnue comme étant une des sources les plus fiables. Cependant dans certains domaines d’application, la pose de capteurs est souvent un frein notamment si la mesure s’effectue hors de la présence physique d’un spécialiste dans le cas de la santé ou lorsque le capteur peut gêner une activité (jeu, serious games) ou encore lorsqu’il est intrusif pour l’intimité (cas de problème psychique). Nous proposons l’utilisation d’une caméra pour collecter des données physiologiques et de comportement. Les travaux de l’équipe Affective Computing du MIT MediaLab dirigé par R. Picard montrent que l’activité cardiaque peut être mesurée par le traitement d’une image issue d’une webcam. Le principe basé sur la photo pléthysmographie permet d’extraire, de l’image 2D, le volume sanguin dont la forme reflète une image de l’activité cardiaque. Le rythme et la variabilité de ce signal sont des composantes qui donnent une image forte de la balance entre les systèmes nerveux sympathique et parasympathique du système nerveux autonome chez l’être humain. La variabilité cardiaque a une allure régulière pour une personne calme et chaotique pour une personne stressée. Notre contribution porte sur l’analyse des signaux cardiaques extraits d’une série d’images obtenue par une webcam. Nous cherchons à quantifier le plus finement possible les variations fréquentielles du rythme cardiaque dans le temps afin d’en tirer la variabilité dans un objectif de reconnaissance d’émotions. Le signal cardiaque est riche en information. L’observation des variations temporelles du rythme cardiaque nous permet de connaitre la fréquence de respiration (arythmie sinusale respiratoire) qui est une composante physiologique mise en œuvre dans l’expression d’une émotion.

Unsupervised Action Recognition and Imitation Measurement

Koby Karp, Stéphane Michelet, Catherine Achard, Mohamed Chetouani

ISIR, Université Pierre et Marie Curie

Recognition of human actions is one of the most challenging fields in Artificial Intelligence today, as it is based on machine learning, image processing and natural language processing. This project concentrates on study of interactions between partners, the analysis of synchrony and in particular the measurement of imitation.

While there is a difficulty to clearly define synchrony and to consistently annotate it, imitation is a more trivial notion and it can help us to measure engagement in an interaction and to detect leaders.

This work consists of many challenges. The first one is to recognize actions as high-level elements in a repeatable manner. Moreover, we need to perform consistent detection of actions in databases with multiple variations (subjects, scene, lightness, scale, etc). Furthermore, our algorithm should give robust results for actions that were never trained before. And lastly, quantify imitation through comparison of distances between elements.

During this project we created three different databases. The first one consisted of different actions and was used for training the models. Second database consisted of imitation between subjects performing predefined actions, and was used for cross-validation. Last database was based on group of subjects that performed random actions and imitated each other.

Among the multiple applications to this research, we can mention the ability of robots to interact naturally with humans (for example, helping elderly people) and the study of social interaction disorders such as autism.

Modèles d'Apparence Multi-Noyaux

Vincent Rapp, Kevin Bailly et Lionel Prevost.

ISIR, Université Pierre et Marie Curie

La localisation de points caractéristiques du visage est un prérequis fondamental pour de nombreuses applications dédiées à l'analyse de visage. Dans cette présentation, nous détaillons une méthode basée sur deux étapes clefs. Dans un premier temps, les localisations de chacun des points caractéristiques sont prédites indépendamment. Afin d’obtenir rapidement et précisément ces localisations, nous avons implémenté une cascade de classifieurs multi-noyaux combinant des informations multi-échelles. Dans un second temps, une contrainte entre chacun des points est introduite, améliorant ainsi la robustesse du système. Pour ce faire, un algorithme de type Gauss Newton s'appuie sur les sorties des classifieurs pour optimiser les paramètres de déformation d'un modèle statistique de forme. De larges expérimentations ont été réalisées sur différentes bases de données, attestant de la précision et de la robustesse de la méthode proposée. Ces études montrent que ce système est robuste aux variations de poses (comprises entre -20 et +20°), d’expressions ou encore d’occultations. De plus, ce système améliores les résultats actuels des détecteurs de points caractéristiques

Extraction et l’analyse du comportement humain à partir des flux vidéo

Jean Martinet

Université de Lille

Dans cet exposé, je présenterai les travaux de l’équipe FOX du Laboratoire d'Informatique Fondamentale de Lille (LIFL, URL de l’équipe : http://www.lifl.fr/FOX), dont le thème de recherche l'extraction et l’analyse du comportement humain à partir des flux vidéo. Nous étudions des descripteurs visuels et de mouvements qui étendent les descripteurs actuels (ex. Mots visuels, Lucas Kanade) pour détecter et suivre les actions et comportements humains.

Nos études sont réalisées à deux niveaux d’échelle : l'individu et la foule. L'individu ainsi que la foule sont étudiés dans leurs dynamiques et caractérisés afin d'en extraire des informations sur leurs comportements respectifs (pour l'individu – détection d'action, état de fatigue, etc., pour la foule – mesure de la densité, mouvement de panique, etc.). Nous étudions aussi à la caractérisation sémantique des contenus multimédia, au sens large, en privilégiant notamment des approches basées sur les mots visuels.

Les grands domaines de validation que nous considérons incluent l’estimation des flux, les mouvements dominants, le suivi, le regard, l’événement, l’expression facial et la reconnaissance de personne. Dans la plupart des travaux menés, nous privilégions des solutions en temps réels afin d'avoir un niveau de réactivité très élevé.

Compact Spatio-Temporal Correlograms based on Maximized Mutual Informations for Human Action Classification

A.Q. Md Sabri, J. Boonaert, S. Lecoeuche & E. Mouaddib

Ecole des Mines de Douai and University Picardie Jules Verne, Amiens

Our work focuses on finding the best approach for performing human actions classification which utilizes local-based representation [1]. Local-based representation normally starts with the detection of spatio-temporal (ST) interest points and is more robust in comparison to global-approach [2]. Most of these methods (local-based approach) are invariant to changes in viewpoint, person appearance as well as partial occlusions. Unlike global-based representations, accurate localization and expensive computation of background subtraction are not required.

The proposed algorithm attempts to improve the work of Savarese et al [1]. In their work, they introduced correlatons extracted from ST correlograms that describe co-occurrences of codewords within spatio-temporal neighborhoods. They utilized codewords formed by concatenating brightness gradients into vectors around each spatio-temporal cube which are non-discriminative enough. These codewords are then used to build ST correlograms from which correlatons are extracted and used for representing human actions in a particular video. Note that ‘correlaton’ is a generalization of the term correlation which means the relationship between codewords representing a set of descriptors. Our first contribution is a modified version of correlatons, in which we propose the usage of SURF [3] based descriptor that is more discriminative, as building blocks for the ST correlogram. This in effect enhances the classification rate. Next, we propose a novel type of representation for human actions by extracting a set of Haralick texture measures [4] from the ST correlograms. These set of measures is composed of various statistical measures which represents meaningful texture information contained in the ST correlograms.

In order to have a more compact set of codewords, and at the same time enhance the efficiency of the algorithm, we experimented with the usage of a feature selection method which is based on maximized mutual information (MMI) between the codewords and the different action classes. The method used is based on the work of Liu et al [5]. Using this method we are able to gain the aforementioned benefits such as the compactness of the set of codewords as well as enhanced efficiency of the overall process, while at the same time preserving the level of classification rate obtained without feature selection.

For evaluation purposes, the KTH action recognition dataset, which is a standard benchmark for this area is used as it is one of the most well known and challenging dataset. The method proposed was able to successfully classify different action classes.

References

1. S. Savarese, A. DelPozo, J.C. Niebles, and L. Fei-Fei, “Spatial-temporal correlatons for unsupervised action classification,” in IEEE Workshop on Motion and video Computing, 2008. WMVC 2008, 2008, pp. 1–8.

2. [2] Lena Gorelick, Moshe Blank, Eli Shechtman, Michal Irani, and Ronen Basri, “Actions as space-time shapes,” Transactions on Pattern Analysis and Machine Intelligence, vol. 29, no. 12,pp. 2247–2253, December 2007.

3. Herbert Bay, Tinne Tuytelaars, and Luc Van Gool, “Surf: Speeded up robust features,” in InECCV, 2006, pp. 404–417.

4. R. M. Haralick, K. Shanmugam, and I. Dinstein. Textural features for image classification. IEEE Transactions on Systems, Man, and Cybernetics, 3(6):610–621, Nov. 1973.

5. J. Liu and M. Shah. Learning human actions via information maxi-mization. In Computer Vision and Pattern Recognition, 2008. CVPR 2008. IEEE Conference on, pages 1–8, June 2008.

Acquisition 3D des gestes par vision artificielle et restitution virtuelle

David Antonio Gómez Jáuregui, Patrick Horain

Institut Mines-Telecom / Telecom SudParis / EPH

Les environnements virtuels collaboratifs permettent à plusieurs utilisateurs d’interagir à distance par Internet. Ils peuvent partager une impression de téléprésence en animant à distance un avatar qui les représente. Toutefois, le contrôle de cet avatar peut être difficile et mal restituer les gestes de l’utilisateur. Ce travail vise à animer l’avatar à partir d’une acquisition 3D des gestes de l’utilisateur par vision monoculaire en temps réel, et à rendre la téléprésence virtuelle possible au moyen d’un PC grand public équipé d’une webcam. Ce type d’immersion permet d’établir un canal de communication gestuelle et d’améliorer le sens de téléprésence dans un monde virtuel 3D [1].

Nous nous intéressons à l’acquisition 3D des gestes par vision monoculaire en temps réel sans marqueurs. Ce problème de vision par ordinateur a plusieurs difficultés à cause de l’absence d’information de profondeur dans des images monoculaires, le grand nombre de paramètres à estimer pour la pose humaine, l’imprévisibilité du mouvement humain, les occlusions des parties du corps, les variations des vêtements, les variations de la morphologie humaine et la complexité de l’environnement dans les images capturées [2], [3].

L’approche suivie consiste à recaler un modèle 3D articulé de la partie supérieure du corps humain sur une séquence vidéo. Ceci est réalisé en cherchant itérativement la meilleure correspondance entre des primitives extraites du modèle 3D d’une part et de l’image d’autre part.

Notre système d’acquisition des gestes est divisé en deux grandes étapes: l'initialisation et le suivi. L'initialisation se réfère à l'apprentissage automatique de l'arrière-plan et de l'utilisateur. Le recalage est utilisé pour adapter la morphologie de notre modèle 3D à celle de l’utilisateur.

Dans la deuxième étape, on extrait en temps réel les primitives de l'image d’entrée (régions colorées et contours) de la séquence vidéo et nous estimons la pose 3D qui mieux corresponde aux primitives de l'image 2D. Des contraintes biomécaniques permettent d’ignorer les poses qui sont physiquement inaccessible par le corps humain [4]. A chaque trame, le processus itératif de recalage est initialisé à partir de la pose estimée aux trames précédentes. Afin de gérer les ambiguïtés monoculaires (manque d'information de profondeur), nous avons développé un algorithme de filtrage particulaire hybride qui combine plusieurs heuristiques afin de gérer les ambigüités 3D / 2D avec un nombre faible de particules [5]. L’algorithme proposé intègre un certain nombre d'heuristiques dans l'approche de CONDENSATION [6] afin de guider les particules vers des solutions plus probables. Notre algorithme de filtrage particulière a significativement amélioré la robustesse et précision du suivi en utilisant uniquement 200 particules dans un espace de 20 paramètres articulatoires. Finalement, la meilleure particule (3D pose) obtenu à chaque image est codée dans le format MPEG-4 BAP [7]. Les paramètres BAP sont utilisés pour animer un avatar 3D dans un environnement virtuel collaboratif à distance (figure 1) [8].

Fig. 1. Acquisition 3D des gestes par vision artificielle et restitution virtuelle. Pour chaque image capturée (l’incrustation en haut à gauche), le modèle 3D est projeté avec la pose qui mieux corresponde aux primitives (l’incrustation en bas à gauche). L’avatar 3D restitue les gestes de l’utilisateur en temps-réel [8].

Références

1. Horain, P., Soares, J.M., Kumar, P., Bideau, A.: Virtually enhancing the perception of user actions. In: 15th International Conference on Articial Reality and Telexistence (ICAT 2005), Christchurch, New Zealand (2005) 245246

2. Moeslund, T., Hilton, A., Kruger, V.: A survey of advances in vision-based human motion capture and analysis. International Journal Computer Vision and Image Understanding (CVIU'06) 104 (2006) 90126

3. Poppe, R.W.: Vision-based human motion analysis: An overview. In: Computer Vision and Image Understanding. Volume 108. (2007) 4-18

4. Jauregui, D.A.G., Horain, P.: Region-based vs. edge-based registration for 3d motion capture by real time monoscopic vision. In: Proceedings of MIRAGE 2009, INRIA Rocquencourt, France, A. Gagalowicz and W. Philips (Eds.), LNCS 5496 (2009) 344-355

5. Jauregui, D.A.G., Horain, P., Rajagopal, M.K., Karri, S.S.K.: Real-time particle filtering with heuristics for 3d motion capture by monocular vision. In: Proceedings of the 2010 IEEE International Workshop on Multimedia Signal Processing (MMSP'10), (Saint-Malo, France).

6. Isard, M., Blake, A.: Condensation - conditional density propagation for visual tracking. IJCV : International Journal of Computer Vision 29 (1998) 5-28

7. 14996-2, I.: Information technology-coding of audio-visual objects-part 2: visual (2001)

8. I-Maginer: Open source platform for 3d environments (2010)

Visual Observation of Human Emotions

Varun Jain, James Crowley

Université de Grenoble, INRIA Grenoble Rhône Alpes, INP

I propose to present our work on the topic “Visual Observation of Human Emotions”, we are working on a holistic approach to emotion observation using Gaussian Derivatives as our choice of descriptors combined with the Half-Octave Gaussian Pyramid.

We have used this approach already for head pose estimation and tested on the Pointing04 database. Our results were better than the state of the art.

A slightly modified approach was used to detect smiles and was tested on the the GENKI-4k database and we achieved an accuracy of over 93 percent.

We plan to adapt out technique to measure Pleasure, Arousal and Dominance in emotions. This would involve creating our own database of emotions involving human subjects and videos/static images of them experiencing different emotions.

Apart from observing facial expressions we feel that it is pertinent to measure parameters like Blood Volume Pulse and other cardiac signals to give an accurate estimate of emotions. Inputs like body posture should also help us in getting closer to visually estimating human emotions.

Identification

Journée sur l'analyse vidéo de l'être humain

Inscriptions

Annonce

Programme

Résumés des contributions