Vous êtes ici : Réunions » Réunion

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Atelier scientifique sur les interactions Homme/Machine

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

18 personnes membres du GdR ISIS, et 64 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 100 personnes.

Annonce

Nous organisons une journée "Interactions Homme/Machine" à Paris soutenue par le labex SMART (http://www.smart-labex.fr/) et le GdR ISIS (dans le cadre de l'action "Visage, geste, action et comportement").

Son but est d'offrir l'opportunité d'échanges sous forme d'exposés et de discussions entre des chercheurs de différentes communautés (informaticiens, cogniticiens, psychologues, ...) travaillant sur les interactions Homme/Machine à partir de différents media et/ou modalités (son, image, vidéo, visage, signaux physiologiques,...).

La journée inclura des conférences invitées et des communications pour lesquelles nous lançons un appel à contribution sur les thèmes :

Les résumés des propositions (1/2 page environ) devront parvenir à Catherine Achard (catherine.achard@upmc.fr), Patrick Horain (Patrick.Horain@telecom-sudparis.eu) et Rémi Ronfard (remi.ronfard@inria.fr) avant le 30 octobre 2015.

.

.

Programme

Projet SeNSE, labex SMART 9h40 - 10h50

Session Poster10h50-12h30

Evaluation automatique et générique des erreurs spatiales et temporelles dans les mouvements sportifs - Marion Morel, Richard Kulpa, Catherine Achard, Séverine Dubuisson, ISIR- UPMC, M2S-Université Rennes 2

Interaction Corporelle et Avatars, Gomez, D., Clavel, C., Giraud, T., Martin, J.-C., LIMSI-CNRS / Université Paris Sud

Détection automatique du stress basée sur l?analyse du signal photopléthysmographique issu d?une webcam, Choubeila MAAOUI, Frederic BOUSEFSAF et Alain PRUSKI, Laboratoire de Conception, Optimisation et Modélisation des Systèmes (LCOMS), Université de Lorraine, Metz, France.

Random Forest pour la reconnaissance robuste des expressions faciales, Arnaud DAPOGNY, Kévin BAILLY, Séverine DUBUISSON, ISIR, UPMC

Reconnaissance d?actions, Geoffrey Vaquette, Laurent Lucas, Catherine Achard, CEA/LIST, ISIR -UPMC.

De la reconnaissance des expressions faciales à une perception partagée, Sofiane Boucenn, ETIS- ENSEA

Caractéristiques des latences de réponses des enfants âgés de 6 à 9 ans selon le caractère virtuel ou humain de l?interlocuteur, Richard, Adeline ; Chanoni, Emilie ; Brisson, Julie ; Rovira, Katia ; Pauchet, Alexandre, Laboratoire Psy. NCA (EA4700), Université de Rouen, UFR SHS

Émotions et profil émotionnel de l'utilisateur en IHR: modèles et expérimentations, Agnes Delaborde, Laurence Devillers, LIMSI-CNRS1/Paris Sorbonne - University/Cerdi

Marqueurs d'attention et d'engagement dans les interactions Homme-Robot, Lucile Béchade, Guillaume Dubuisson, Laurence Devillers, LIMSI-CNRS1, Université Paris Sorbonne, Université Paris-Saclay

SeNSE - Study of social cues exchanged during natural interactions, Sheng Fang, Catherine Achard, Séverine Dubuisson, ISIR, UPMC

SeNSE - Temporal adaptation of interaction, Kevin Sanlaville, C. Pelachaud, F. Bevilacqua and G. Assayag, STMS-IRCAM, LTCI-Telecom Paris

SeNSE - Multimodal analysis and recognition of social signals: application to social stance generation in virtual agents, Thomas Janssoone, G. Richard, C. Clavel and K. Bailly, ISIR-UPMC, LTCI-Telecom Paris

SeNSE - Embedded architecture and physiological sensors, Wenlu Yang, C. Marsala, M. Rifqi and A. Pinna, LIP6-UPMC

SeNSE - Modeling interactional neurophysiological activity using latent variables, Ayoub Hajlaoui, M. Chetouani and S. Essid, ISIR-UPMC, LTCI-Telecom Paris

Présentations orales 14h00-16h45

14h00-14h30 Interaction corporelle et qualité de mouvement dans une application de coach virtuel , Focone Florian, Giraud Tom, Isableu Brice, Martin Jean-Claude, Demulier Virginie, LIMSI ? CNRS, CIAMS ? UFR STAPS

14h30-15h00 Vers une approche temps-réel de reconnaissance d?actions à partir de données RGB-D, Enjie Ghorbel, Rémi Boutteau, Jacques Bonnaert, Xavier Savatier et Stéphane Lecoeuche, Institut de Recherche en Systèmes Electroniques Embarqués, Rouen, Unité de Recherche en Automatique et Informatiques, Mines de Douai

15h00-15h30 Interagir avec un avatar dépourvu de prosodie ou de mimiques faciales : étude auprès d?enfants âgés de 6 à 11 ans, Emilie, Chanoni ; Mélodie Ruinet ; Julie Brisson, Katia Rovira, Alexandre Pauchet , Université de Rouen, laboratoire PSY.NCA

15h30-15h45 Pause café

15h45-16h15 On-line action recognition by modeling local kinematic primitive, Fabio Martínez, Michèle Gouiffès, Antoine Manzanera, LIMSI, CNRS, Université Paris-Saclay, U2IS/Robotics-Vision, ENSTA-ParisTech, Université Paris-Saclay

16h15-16h45 Learning Human Identity from Motion Patterns, Natalia Neverova, Christian Wolf (INSA-Lyon, LIRIS UMR CNRS 5205), Griffin Lacey (University of Guelph), Lex Fridman (Massachusetts Institute of Technology), Deepak Chandra, Brandon Barbello (Google Inc.), Graham Taylor (University of Guelph)

Discussion et clôture de la journée 16h45-17h00

.

.

Résumés des contributions

Résumé des présentations

Interaction corporelle et qualité de mouvement dans une application de coach virtuel
Focone Florian1, 2 ; Giraud Tom1, 2 ; Isableu Brice2 ; Martin Jean-Claude1 ; Demulier Virginie1
LIMSI ? CNRS1, CIAMS ? UFR STAPS2
La création de coach virtuel sportif affichant des mouvements du corps entier est un exemple d?application en interaction homme machine (IHM). Orienté santé et ludo-éducatif, ces exergames engageants souffrent d?une absence de contrôle de la perception sociale et suscitent peu d?attrait motivationnel chez l?utilisateur. Pourtant, la littérature a montré que plus le coach est motivant et plus il est efficace (Lyons et coll., 2014). L?expressivité est un ensemble de paramètres calculés en se basant sur la dynamique du mouvement (i.e., « Énergie », « Direct », « Rigidité » et « Étendue dans l?espace ») qui permet de le quantifier objectivement et subjectivement (Samadi et coll., 2013). L?impact de l?expressivité n?a été que peu étudiée dans le cadre d?applications de coach virtuels sportifs (Giraud et al. 2015).
Au cours d?une expérience orientée IHM, nous avons créé des coachs virtuels hommes et femmes, et leur avons implémenté des mouvements biologiques et des mouvements synthétisés pour créer différentes conditions d?expressivité (figure 1 ? gauche). Nous avons enregistré les mouvements de 26 participants (13 femmes) par capture du mouvement et avons recueilli leurs impressions sur des échelles visuelles analogiques. Nous avons lié les expressivités des mouvements des coachs virtuels à celles des participants et de leur ressenti. Les résultats ont mis en évidence que l?expressivité du mouvement des personnages virtuels impacte significativement l?évaluation des participants qui à leur tour, modifient leurs mouvements (figure 1 - droite). L?expressivité devrait à l?avenir être considérée dans la conception de telles applications.

Reconnaissance d?actions
Geoffrey Vaquette1, 2, Laurent Lucas1, Catherine Achard2
CEA/LIST1, UPMC2.
Dans le domaine de plus en plus important de la reconnaissance et détection d'action à partir de flux vidéo, nous proposons une méthode permettant de fusionner différents descripteurs (vidéos, squelette, profondeurs, etc.) et de tirer profit des informations contenues dans chacun d'eux. Cette fusion est réalisée au sein d'un algorithme de type transformée de Hough, plus précisément Deeply Optimised Hough Transform (DOHT).
Ce paradigme est basé sur un processus de votes adapté à la détection d'actions humaines et est utilisable en temps réel puisqu'il présente une faible complexité. Dans un tel algorithme, il est possible de combiner les différents descripteurs à trois niveau différents : en amont du processus de vote, au sein de ce dernier ou en aval.

Nous décrirons les types de fusions que nous proposons au sein du DOHT, analyserons leurs avantages et performances sur un jeu de donnée utilisé pour la détection d'actions humaines.

Learning Human Identity from Motion Patterns
Natalia Neverova, Christian Wolf (INSA-Lyon, LIRIS UMR CNRS 5205), Griffin Lacey (University of Guelph), Lex Fridman (Massachusetts Institute of Technology), Deepak Chandra, Brandon Barbello (Google Inc.), Graham Taylor (University of Guelph)
We present a large-scale study, exploring the capability of temporal deep neural networks in interpreting natural human kinematics and introduce the first method for active biometric authentication with mobile inertial sensors. We have created a first-of-its-kind dataset of human movements, passively collected by 1500 volunteers using their smartphones daily over several months. We (1) compare several neural architectures for efficient learning of temporal multi-modal data representations, (2) propose an optimized shift-invariant dense convolutional mechanism (DCWRNN) and (3) incorporate the discriminatively-trained dynamic features in a probabilistic generative framework taking into account temporal characteristics. Our results demonstrate, that human kinematics convey important information about user identity and can serve as a valuable component of multi-modal authentication.

De la reconnaissance des expressions faciales à une perception partagée
Sofiane Boucenna
ETIS- ENSEA
Nos travaux se concentrent sur les interactions émotionnelles en robotique développementale. Le robot doit pouvoir agir et réagir dans un environnement naturel et nouveau. Il est donc nécessaire que le robot puisse acquérir une autonomie comportementale qui se traduit par la capacité d?apprendre et de s'adapter en ligne. En particulier, nous nous proposons d?étudier quels mécanismes introduire pour que le robot ait la capacité de se constituer une perception des objets de son environnement qui puisse être partagée par celle d?un partenaire humain. Le problème sera de faire apprendre à notre robot à préférer certains objets et à éviter d?autres objets. La solution peut être trouvée en psychologie dans ce que l?on appelle ?la référenciation sociale? (?social referencing?) qui consiste à attribuer une valeur à un objet grâce à l?interaction avec un partenaire humain. Dans ce contexte, notre problème est de trouver comment un robot peut apprendre de manière autonome à reconnaître les expressions faciales d?un partenaire humain pour ensuite les utiliser pour donner une valence aux objets et permettre leur discrimination.

Evaluation automatique et générique des erreurs spatiales et temporelles dans les mouvements sportifs
Marion Morel1,2, Richard Kulpa2, Catherine Achard1, Séverine Dubuisson1
ISIR- UPMC1, M2S-Université Rennes 22
La bonne exécution d?un geste sportif demande le plus souvent une précision spatiale et une coordination des membres complexe qu?il est plus ou moins difficile d?atteindre, selon le mouvement. Un bras droit en retard, une jambe trop haute ou un bassin trop mobile peuvent, selon le contexte, conduire à de mauvaises performances. Le but de ces travaux est de proposer à un sportif novice ou blessé d?évaluer son mouvement de façon autonome et, à terme, de lui fournir un outil d?entrainement qui lui permette d?évaluer sa progression au cours du temps.
Evaluer et quantifier ce geste sportif de façon automatique est une tâche difficile tant elle dépend irrémédiablement du geste réalisé. Certaines études se sont focalisées sur un sport en particulier et ont défini des règles de performance (Burns, et al., 2011), (Komura, Lam, Lau, & Leung, 2006), (Ward, 2012). Les résultats sont intéressants mais manquent de généricité. En outre, les descripteurs utilisés doivent, pour rendre compte au mieux de la performance, être rendus indépendants de la morphologie et du style du sujet.
A partir d?une base de données de gestes experts uniquement, nous proposons ici une approche basée sur une déformation temporelle dynamique (DTW) à 2 niveaux, afin d?aligner temporellement et spatialement les mouvements et d?en extraire les imperfections du geste novice pour chaque articulation au cours du temps. Le processus se divise en 2 phases distinctes : (i) la modélisation du geste expert, puis (ii) l?évaluation du geste novice. Le système est appliqué sur des services de tennis capturés avec un système optoélectronique Vicon, mais pourrait tout aussi bien être utilisé pour n?importe quel autre sport individuel.
Les résultats préliminaires que nous avons permettent de distinguer un geste novice d?un geste expert, mais aussi de quantifier au cours du temps les erreurs spatiales et temporelles (erreur de synchronie) de chaque articulation du novice.

Interaction Corporelle et Avatars
Gomez, D., Clavel, C., Giraud, T., Martin, J.-C.
LIMSI-CNRS / Université Paris Sud
Les humains disposent d'une large variété de modalités de communication non verbale : regards, expressions faciales, gestes de la tête ou de la main, mouvements du corps, etc. Les progrès de la vision par ordinateur ont permis le développement d?algorithmes capables de détecter automatiquement certains de ces comportements non verbaux à partir de séquences vidéo. Les comportements non-verbaux détectés peuvent être particulièrement pertinents en termes affectifs via des expressions faciales, des comportements d?approche et évitement, des indices posturaux, des gestes, des mouvements corporels, etc.
L?analyse des comportements non verbaux pour l?interaction Homme-Machine est un sujet de recherche actif qui vise à comprendre comment les individus s?adaptent à différentes situations d'interaction afin de guider la conception et le développement de systèmes intelligents qui soient capables de s?adapter dynamiquement aux utilisateurs. Dans cette présentation, des résultats récents sur ce sujet de recherche seront présentés. Cette présentation sera réalisée en deux parties : pour la première partie, un algorithme basé sur la distance interoculaire sera présenté. Il a été utilisé pour analyser l?approche et évitement d?adolescents interagissant avec une plateforme conversationnelle d?e-learning impliquant des agents virtuels (Gomez et al. 2013). La mesure d?approche et évitement a été corrélée avec des tests psychologiques d?anxiété des adolescents. Les résultats suggèrent que la mesure proposée pourrait être capable de détecter les comportements d'approche et d'évitement par rapport à des stimuli positifs et négatifs dans des conditions naturelles. Dans la deuxième partie de la présentation, nous décrirons comment des indices posturaux ont été utilisés pour analyser des états émotionnels d?utilisateurs dans une tâche de prise de parole en public (Giraud et al. 2013). Trois mesures ont été implémentées : l?indice de contraction (posture ouvert / fermé), la quantité de mouvement et la détection du centre de gravité. Ces mesures ont été corrélées avec d?autres mesures (performances subjectives, plateforme de force) afin de détecter des états émotionnels complexes comme l?anxiété ou le stress. Les résultats ont montrés que les mesures implémentées sont corrélées principalement avec des niveaux de frustration, de motivation et du stress des utilisateurs. Finalement, des futures perspectives des interactions non verbales entre des utilisateurs et des agents virtuels seront présentées en utilisant les mesures des indices posturaux dans un simulateur d?entretien d'embauche.

Random Forest pour la reconnaissance robuste des expressions faciales
Arnaud DAPOGNY, Kévin BAILLY, Séverine DUBUISSON
ISIR, UPMC
L'analyse automatique des expressions faciales est une étape clef pour le développement d'interfaces intelligentes, l'analyse de comportements ou encore l'animation d'avatars. Toutefois, celle-ci est généralement rendue difficile par un grand nombre de facteurs de variations, qui peuvent être d'ordre morphologiques, liés à l'orientation du visage ou à la présence d'occultations partielles. Afin de pallier à ces problèmes, nous proposons un système complet pour la reconnaissance robuste d'expressions faciales utilisant des adaptations de l'algorithme classique « Random Forest », lesquelles portent principalement sur :
? Un schéma d'intégration de caractéristiques spatio-temporelles hétérogènes (typiquement texture et géométriques) au sein de Random Forests construites à partir de paires d'images. Il est de plus possible, afin de réduire la variabilité des transitions entre états expressifs, de conditionner les classifieurs en rapport avec la première image de chaque paire.
? Le conditionnement par rapport à une estimation de pose afin de permettre la reconnaissance d'expressions indépendamment de l'orientation du visage. Pour cela, nous utilisons une base de données construite à partir de scans 3D haute résolutions, afin de générer de multiples vues pour chaque image des vidéos d'expressions faciales.
? L'utilisation de réseaux de neurones auto-associatifs pour modéliser localement l'apparence du visage. Ces réseaux fournissent une mesure de confiance qui peut être utilisée dans le but de pondérer des Random Forests définies sur des sous-espaces locaux du visage. Ce faisant, il est possible de fournir une prédiction d'expression robuste aux occultations partielles du visage.
Les approches proposées permettent de fournir des résultats de classification dépassant les méthodes récentes de l'état de l'art pour la reconnaissance d'expressions faciales à partir de séquences vidéo. De plus, elles fournissent également une robustesse accrue aux variations de pose du visage et à la présence d'occultations partielles.

Détection automatique du stress basée sur l?analyse du signal photopléthysmographique issu d?une webcam
Choubeila MAAOUI, Frederic BOUSEFSAF et Alain PRUSKI
Laboratoire de Conception, Optimisation et Modélisation des Systèmes (LCOMS)
Université de Lorraine, Metz, France.
Un des objectifs de l'informatique affective est de fournir aux ordinateurs la capacité de reconnaître automatiquement l'état affectif de l'utilisateur pour une communication homme-machine plus intuitive. Dans ce cadre, nous avons développé un système de reconnaissance automatique de l?état émotionnel de l'utilisateur (stress). Le système est basé sur le calcul de la fréquence cardiaque instantanée extraite des signaux photopléthysmographiques (PPG) obtenus sur des visages humains et enregistrés par une webcam. Sept paramètres caractéristiques (temporels et fréquentiels) sont calculés à partir de ce signal et traités par un système d?'apprentissage automatique. Deux méthodes de classification SVM (Support Vector Machine) et LDA (Analyse Discriminante Linéaire) sont utilisées et comparées pour classer l'état émotionnel de l'utilisateur. Nous avons développé une application informatique basée sur le test colorimétrique « Stroop » pour l?induction du stress. L?approche proposée peut atteindre un taux de classification de 94,42% et de 91,10% avec SVM et LDA respectivement. Les résultats obtenus indiquent que notre système est efficace pour la classification du stress.
Interagir avec un avatar dépourvu de prosodie ou de mimiques faciales : étude auprès d?enfants âgés de 6 à 11 ans
Emilie, Chanoni ; Mélodie Ruinet ; Julie Brisson, Katia Rovira, Alexandre Pauchet
Université de Rouen, laboratoire PSY.NCA
Les agents virtuels deviennent les nouvelles interfaces de communication humain-machine. Les enfants seront de plus en plus en contact avec cette nouvelle variété de partenaires d?interaction incarnés par des personnages animés aux compétences multimodales (langage naturel, expressions du visage, gestes, etc.). Dans le cadre de l?ANR NARECA et poursuivant les travaux précédents (Serban et al. 2013), la présente étude a comme objectif de comparer les comportements communicationnels des enfants selon qu?ils sont en interaction avec trois avatars qui diffèrent selon leurs modalités paralinguistiques (prosodie ou mimiques faciales). Un premier avatar (NoM) est dépourvu de mimiques faciales mais reste doté d?une prosodie naturelle. A l?inverse, un deuxième avatar (NoP) est dépourvu de prosodie mais reste doté de mimiques faciales. Le troisième avatar (MP) est doté de mimiques et de prosodie.
Dans le cadre d?un paradigme magicien d?Oz, 50 enfants âgés de 6 à 11 ans ont été répartis en trois groupes indépendants et placés face à l?avatar (NoP, NoM ou MP) pour une séance de narration interactive. Nous avons relevé le nombre de sourires des enfants et le nombre de réponses aux questions de l?avatar ainsi que leur latence de réponse. Quel que soit l?âge des enfants, les résultats indiquent un effet des modalités de l?avatar sur le nombre de sourires (Fsourire(2,41)= 8,241 ; p<.001), mais également sur le nombre de réponses Freponse(2,41)= 11,83 ; p<.001) et la latence de réponse (Flatence(2,41) = 3,381 ; p<.05). Les enfants tendent à moins s?exprimer et à répondre plus lentement lorsqu?ils interagissent avec l?avatar NoP qu?avec l?avatar MP. Ces résultats ne sont pas retrouvés avec l?avatar NoM. Ainsi, malgré les mimiques faciales préservées, l?absence de prosodie semble affecter la réactivité des enfants dans l?interaction. Quel que soit leur âge, les enfants sourient moins, répondent moins et mettent plus de temps à répondre aux questions de l?avatar. Ces données permettent d?enrichir les connaissances sur les caractéristiques des interactions entre enfant et agent virtuel et de préciser les effets de certaines fonctionnalités de l?agent virtuel sur la qualité des interactions.

Caractéristiques des latences de réponses des enfants âgés de 6 à 9 ans selon le caractère virtuel ou humain de l?interlocuteur
Richard, Adeline ; Chanoni, Emilie ; Brisson, Julie ; Rovira, Katia ; Pauchet, Alexandre.
Laboratoire Psy. NCA (EA4700), Université de Rouen, UFR SHS
Avec leurs caractéristiques anthropomorphiques, les agents virtuels deviennent les nouvelles interfaces de communication humain-machine et ainsi une nouvelle variété de partenaire d?interaction pour les enfants. Dès les premières proto-conversations se dessine déjà une temporalité entre les tours de parole de la mère et l?enfant (Nagy & Molnar, 1994, 2004 ; Gratier, 2013 ; Bruner, 1983). Ce rythme dans l?échange est fondamental au maintien de l?interaction car il en garantit la fluidité. Peu d?études précisent les caractéristiques des interactions entre les enfants d?âge scolaire et un agent virtuel. En collaboration avec les informaticiens, notre étude, précise les différences de latence de réponse des enfants selon la nature virtuelle ou humaine de leur interlocuteur. Ainsi, 60 enfants âgés de 6 à 9 ans ont été placés dans une situation de narration interactive. Répartis en trois groupes indépendants, les enfants interagissaient avec l?un des trois narrateurs proposés : un humain en face à face, un humain via webcam et un avatar selon le paradigme du magicien d?Oz
Les résultats attestent que la latence de réponse des enfants diffère selon le type de narrateur (T(2;87) = 8,902 ; p < .001). Elle passe du simple au double selon que l?enfant répond à un humain ou à un avatar. Les résultats indiquent que la latence de réponse parait être moins influencée par la nature humaine ou virtuelle de l?interlocuteur que par la présence physique de celui-ci. Les résultats sont discutés à la lumière des connaissances de l?adaptation à l?interlocuteur chez l?enfant et aux situations de communication médiées par écran.
On-line action recognition by modeling local kinematic primitives
Fabio Martínez1,2, Michèle Gouiffès1, Antoine Manzanera2
LIMSI, CNRS, Université Paris-Saclay, FRANCE1,2, U2IS/Robotics-Vision, ENSTA-ParisTech, Université Paris-Saclay, FRANCE1,2
This work introduces a motion descriptor to classify and recognize activities/gestures using kinematic cues extracted from trajectories in a video sequence. The proposed approach is robust to object appearance by characterizing a set of local motion primitives. These motion cues are coming from the kinematic characterization of local trajectories which are coded as statistics that represent the history of motion. The proposed descriptor also exploits the spatial relationships among the motion cues to obtain a more robust representation of the object of interest. Such spatio-temporal characterization is performed recursively, therefore an updated version of the motion descriptor is available at each frame for recognition. The proposed approach has been tested in public datasets, showing competitive results. Also, for specific applications such as the sign language video annotation the proposed approach has shown promising results.

In feature works we would like to find an efficient spatial representation to capture key specific relationships of the motion cues that allow a better discrimination of activities. Also, this spatial representation will be extended to time to describe the motion from fine (local) - to - coarse (regional) layers. The integration of different temporal versions of the descriptor according to different intervals of motion will be also explored. Regarding the sign language recognition we will explore the ability of the proposed approach to recognize together non-manual articulators such as head, face, and torso which are relatively synchronized on different spatial and temporal scales and could be used to support the prediction of a particular discourse. Also, the motion descriptor will be used to analyze which are the most discriminant kinematic primitives regarding a French sign language corpora.
Vers une approche temps-réel de reconnaissance d?actions à partir de données RGB-D
Enjie Ghorbel* **, Rémi Boutteau*, Jacques Bonnaert**, Xavier Savatier* et Stéphane Lecoeuche**
* Institut de Recherche en Systèmes Electroniques Embarqués (IRSEEM), Rouen, France
* Unité de Recherche en Automatique et Informatiques (URIA), Mines de Douai, Douai, France
Dans le domaine de l?interaction Homme-machine, un intérêt particulier pour la reconnaissance d?actions par vision ordinateur ne cesse de croître en raison de son rôle prédominant dans l?interprétation même du message émis par l?homme. Un grand nombre de méthodes de reconnaissance d?actions à partir de vidéos classiques RGB (Red Green Blue) ont déjà été proposées dans la littérature. Cependant, ces approches présentent certaines limitations telles que la sensibilité aux changements de lumière, aux occlusions ou encore à la segmentation du corps humain, etc. C?est ainsi que des approches basées sur les nouvelles caméras RGB-D (Red Green Bleu Depth) ont vu leur popularité augmenter. En effet, ce type de système d?acquisition permet, non seulement d?obtenir des séquences d?images RGB, mais également d?obtenir des séquences d?images de profondeur à partir desquelles il est désormais possible d?extraire presque instantanément des séquences de squelettes assez robustes.
De ce fait, un nombre considérable de descripteurs d?actions humaines basés sur les caméras RGB-D ont été introduits durant ces dernières années. Pour évaluer ces descripteurs, la plupart des travaux proposent de montrer que leurs utilisations en combinaison avec un classifieur adéquat permettent d?obtenir des taux de reconnaissance élevés sur des bases de données de référence telles que MSRAction3D, MSRDailyActivity3D, UTKinect, etc. Toutefois, un facteur essentiel est très souvent omis : la latence calculatoire, qui représente le temps de calcul nécessaire à la reconnaissance d?une action. En effet, l?utilisation d?une méthode, dont le coût calculatoire serait trop important, se limiterait à un nombre très restreint d?applications réelles, même si celle-ci présente un bon taux de reconnaissance.
Ainsi, nous proposons un nouveau descripteur d?actions humaines qui est à la fois rapide à calculer et précis en termes de reconnaissance. Inspiré par des études biomécaniques, ce descripteur est construit grâce à l?interpolation par Spline cubique des grandeurs cinématiques (position, vitesse, accélération) des articulations du squelette dans le temps. Afin d?évaluer notre méthode, nous redéfinissons la performance en ajoutant au critère classique de taux de reconnaissance, un second critère que nous nommons le temps d?exécution moyen par descripteur. Les résultats montrent que notre méthode rivalise avec les méthodes les plus récentes et les plus performantes de la littérature.
Émotions et profil émotionnel de l'utilisateur en IHR: modèles et expérimentations
Agnes Delaborde1,3, Laurence Devillers1,2
LIMSI-CNRS1/Paris Sorbonne-University2/Cerdi3
La détection des émotions de l'utilisateur est primordiale pour la fluidité de l'interaction entre l'humain et le robot. Dans le cadre du projet robotique ROMEO2 (http://projetromeo.com ; Pandey et al. 2014), nous avons mis au point un système permettant la détection des émotions exprimées dans la voix du locuteur (joie, colère, tristesse, neutre) (Devillers et al. 2015; Tahon & Devillers, 2015; Sehili et al., 2014), et la mise à jour automatique de son profil émotionnel (optimisme, extraversion, confiance en soi, variabilité émotionnelle) (Delaborde & Devillers, 2010; 2012). Ce profil permet la sélection automatique des comportements du robot. Nous présenterons les modèles utilisés dans ce système, ainsi que les scenarios applicatifs mis au point dans le cadre du projet ROMEO2. Ces scénarios d'interaction mettent en scène des adultes en perte d'autonomie, en interaction avec un robot assistant à domicile. La détection des émotions et du profil permet de piloter des situations telles que la première rencontre avec le robot, la négociation en cas de refus d'une proposition d'assistance de la part du robot, et le réveil du matin. Ces scénarios seront évalués en 2016 auprès de personnes âgées dans le cadre du projet. Nous décrirons la façon dont ces informations émotionnelles peuvent enricher le contexte d'un système automatique de prise de décision incluant une détection du topic (travaux en collaboration avec SpirOps AI dans le cadre du projet). Nous décrirons également les différents niveaux de mémorisation du système dans le but de tracer le comportement du robot, ceci afin d?étudier le lien avec des questions de responsabilité (projet ISN avec le CERDI).
Références:
Amit K. Pandey, R. Gelin, R. Alami, R. Viry, A. Buendia, R. Meertens, M. Chetouani, L. Devillers, M. Tahon, D. Filliat, Y. Grenier, M. Maazaoui, A. Kheddar, F. Lerasle, L. Duval, Romeo2 project: : Humanoid Robot Assistant and Companion for Everyday Life: I. Situation Assessment for Social Intelligence", Artificial Intelligent and Cognition (AIC), Turin, Italie, 2014.
Devillers, L., Tahon, M., Sehili, M., Delaborde, A. (2015) Inference of Human Beings' Emotional States from Speech in Human-Robot Interactions. International Journal of Social Robotics.
Tahon, M, Devillers, L. (2015) "Towards a small set of robust acoustic features for emotion recognition: challenges", Transaction in Speech, Audio and Language Processing, IEEE.
Sehili, M. E. A., Yang, F., & Devillers, L. (2014). Attention detection in elderly peoplerobot spoken interaction. In Proceedings of the 2014 Workshop on Multimodal, Multi- Party, Real-World Human-Robot Interaction (pp. 7-12). ACM.
Delaborde, A., Devillers, L. (2012) Impact of the Social Behaviour of the Robot on the User?s Emotions: Importance of the Task and the Subject?s Age. In proc of WACAI 2012: Workshop Affect, Compagnon Artificiel, Interaction. Grenoble, France. Novembre 2012.
Delaborde, A., Devillers, L. Use of Nonverbal Speech Cues in Social Interaction between Human and Robot: Emotional and Interactional markers. (2010) In proc. 3rd International Workshop on Affective Interaction in Natural Environments, ACM Multimedia, Firenze, Italy. October 2010.
Marqueurs d'attention et d'engagement dans les interactions Homme-Robot
Lucile Béchade1,3, Guillaume Dubuisson1, Laurence Devillers1,2
LIMSI-CNRS1, Université Paris Sorbonne2, Université Paris-Saclay3
Trace de l'amusement des interlocuteurs ainsi que de leur engagement, le rire est un marqueur social essentiel. Rire avec autrui favorise la creation du lien social et l'installation d'une atmosphère positive dans l'interaction. Dans le cadre du projet JOKER (http://www.chistera.eu/projects/joker), nous avons mis au point un système de dialogue social fondé sur des indices paralinguistiques. Premier pas vers la construction d'une interface utilisateur intelligente, ce système de dialogue multimodal mettra l'accent sur la fusion des indices verbaux et non-verbaux pour la perception du comportement émotionnel et social des participants. La génération du comportement interactionnel du robot repose notamment des capacités comme l'humour ou l'empathie. Nous présenterons le système mis au point ainsi que les scénarios d'interactions utilisés dans le cadre d'une première collecte de donnée. Ces scénarios incluent des actes langagiers permettant de susciter le rire chez le participant comme des devinettes
humoristiques, des jeux de mots sur la nourriture ou encore des histoires courtes. Nous décrirons également comment des marqueurs sociaux comme le rire pourraient permettre de construire de façon dynamique un modèle utilisateur ainsi que de mesurer l'engagement des participants dans l'interaction.
Références :
L. Devillers, M. Tahon, M. A. Sehili, and A. Delaborde, ?Inference of human beings emotional states from speech in humanrobot interactions,? International Journal of Social Robotics, pp. 1?13, 2015. _
L. Devillers, S. Rosset, G. Dubuisson Duplessis, M. A. Sehili, L. Bechade, A. Delaborde, C. Gossart,_V. Letard, F. Yang, Y. Yemez, B. B. Turker,_M. Sezgin, K. El Haddad, S. Dupont, D. Luzzati, Y. Esteve, G. Emer, and N. Campbell. Multimodal data collection of human-robot humorous interactions in the joker project. In Affective Computing and Intelligent Interaction (ACII), (accepted), 2015.
A. Delaborde and L. Devillers, ?Use of nonverbal speech cues in social interaction between human and robot: Emotional and interactional markers,? in Proceedings of the 3rd International Workshop on Affective Interaction in Natural Environments, ser. AFFINE ?10. New York, NY, USA: ACM, 2010, pp. 75?80.
M. Pantic, A. Pentland, A. Nijholt, and T. Huang. Human computing and machine understanding of human behavior: A survey. In Proceedings of the 8th International Conference on Multimodal Interfaces, ICMI ?06, pages 239?248, New York, NY, USA, 2006. ACM
SeNSE - Study of social cues exchanged during natural interactions
Sheng Fang, Catherine Achard, Séverine Dubuisson
ISIR, UPMC
Our work aims to study social signals exchanged during natural interactions by creating a model of interaction able to estimate its quality, its strength and its weakness. This multimodal (e.g. speech, face, gestures, posture), dynamical (evolving over time) and hierarchical (different levels of characterization: gestures, facial orientation, involvement, synchrony, different time levels) model should both consider inter- and intra-personal temporality. It will assess both Human / Computer interaction (HCI) and exchanges in dyads for applications such as interactive robotic, assistance to people in a medical context, modeling and objectification in cognitive science, including psychopathology, communication science and so on. Our current work is to identify relevant social cues to create this model. If a first intuition is to consider that gestures and speech are important, further reflection leads us consider how to representing gesture and speech. At the same time, we develop a new model, which can detect the inter- and intra-personal relation based on temporal input features.
SeNSE - Temporal adaptation of interaction
Kevin Sanlaville, C. Pelachaud, F. Bevilacqua and G. Assayag
STMS-IRCAM, LTCI-Telecom Paris
Le but de notre travail de thèse est d?établir un modèle d?interaction homme-machine capable de commander des comportements conversationnels. Pour cela, nous comptons nous appuyer sur les comportements non-verbaux pour réguler l?interaction conversationnelle, i.e. les comportements de prise, de conservation et d?abandon de parole. Nous comptons ainsi faire émerger une synchronie entre un groupe d?agents interagissant ensemble et avec des humains. Pour valider notre modèles, nous avons décidé d?appliquer notre modèle que nous voulons générique à deux cas d?applications : les agents conversationnels animés, qui sont des programmes informatiques qui ressemblent à des humains, et des agents improvisateurs musicaux, capables d?imaginer de nouvelles phrases musicales à partir des interactions qu?ils ont eu avec des musiciens humains.

Nous nous sommes inspirés de la littérature existante en psychologie et dans domaine du Turn-taking pour définir un modèle en cinq états (AuRepos, Parlant, Ecoutant, VoulantParler, VoulantSeTaire) qui représente l?état conversationnel de l?agent. Nous sommes actuellement en train d?implanter ce modèle théorique à l?aide de modèles mathématiques probabilistes dérivés des Modèles de Markov Cachés. Le choix de tels modèles a été décidé en nous basant sur le fait qu?un être humain ne peut seulement qu?inférer les intentions de son interlocuteur à partir de ce qu?il voit. Nous sommes actuellement en train de faire apprendre à ces modèles des données réelles issus de corpora d?interaction naturelle entre des individus.
SeNSE - Multimodal analysis and recognition of social signals: application to social stance generation in virtual agents
Thomas Janssoone, G. Richard, C. Clavel and K. Bailly
ISIR-UPMC, LTCI-Telecom Paris
Mes travaux de thèse portent sur l'analyse et la reconnaissance de signaux sociaux en multimodalité en vue de générer une attitude sociale réaliste pour animer un agent virtuel animé. Après une revue de l'état de l'art actuel, je me suis concentré sur l'étude de la dynamicité de ces signaux sociaux considérés comme des événements.
Je me suis en particulier concentré sur les expressions faciales (Action Unit, position de la tête,?) et la prosodie afin d'étudier les attitudes sociales au sens de Scherer (2005). Elles sont définies comme la coloration d'un échange : est il chaleureux ou froid ? Un des intervenants est dominant, l'autre dominé, ou sont ils égaux ?
En effet, dans son article sur les attitudes sociales de 2012, Massimo Chindamo insiste sur le fait que les attitudes sociales se construisent au fur et à mesure des tours de paroles. L?enchaînement de ces signaux dans le temps apporte donc des informations sur ces attitudes et leur construction.
Durant ma première année de thèse, j'ai mis au point une méthodologie d'extraction automatique de ces séquences de signaux en règles d'association temporelle. Les signaux sociaux, symbolisés par exemple dans le cas des signaux prosodiques, sont considérés comme des événements et une méthode de séquence mining (TITARL Guillame-Bert 2012) permet de trouver ces règles d'associations. Ces dernières pourront permettre de trouver les séquences de signaux à utiliser pour rendre l'avatar plus hostile ou plus dominant, par exemple, lors de son animation.

SeNSE - Embedded architecture and physiological sensors
Wenlu Yang, C. Marsala, M. Rifqi and A. Pinna
LIP6-UPMC
The originality of this thesis is the design of the most appropriate embedded architecture implementing dynamic learning techniques on physiological signals (EDA, EEG, ECG, EMG ...) to automatically recognize emotions. The objective is to obtain an architecture that reacts as closer as possible to a particular person. For this, the machine learning algorithm must automatically adapt to new physiological data it receives to implement automatic recognition of a mental state. The automatic adaptation of the learning algorithm to these changes is an emerging problem and challenges of the thesis are to design algorithms and architectures: embedded, effective execution speed and memory space; capable of integrating new descriptors, as well as new classes (new mental states); capable of detecting abrupt changes or breaks without confusing them with noise; able to follow developments and remaining robust and therefore knowing control oblivion. These challenges will be validated in several scenarios, such as video games, coaching, professional training and events.
Connection to the SENSE project:
The purpose of this thesis is to study emotions and learning in human interactions - virtual agent. It is to apply the concepts of extraction and characterization of social signals (WP2 SENSE project) and adaptation over time interaction (WP4) to determine the emotional impact of sequences successive one video game, a coaching session or training, a person, to fit the scenario of the game, or the sequencing of the coaching session or training accordingly.
SeNSE - Modeling interactional neurophysiological activity using latent variables
Ayoub Hajlaoui, M. Chetouani and S. Essid
ISIR-UPMC, LTCI-Telecom Paris
During this first year of Phd, the focus has been made on the use of a specific family of machine learning techniques in the field of electro-encephalography (EEG): nonnegative matrix (NMF) and tensor factorizations (NTF). Attempts have been made to model brain activity and social interactions accordingly. A first database on hand gesture imitation has been collected with 21 dyads (right-handed), and a specific imitation/non-imitation protocol. The first results obtained on an imitation/non-imitation hand gesture experiment were not conclusive enough, as making the distinction between mechanical gesture imitation and intentional imitation turned out to be problematic. A new experiment has to be designed, making clear distinctions between « hand mechanics » and intentionality.
In the meantime, the use of nonnegative tensor factorization as a support for classification is being developed in a slightly different framework: EEG signals are still used as data, but the datasets we study were obtained in an emotion elicitation experiment (MANHOB HCI Tagging Database). The key idea is to evaluate (and validate) the performance of EEG features for emotion classification with a state-of-the-art database before investigating any complex situation such as imitation/non-imitation

Date : 2015-12-02

Lieu : Telecom Paris - amphi B312


Thèmes scientifiques :
B - Image et Vision

Inscriptions closes à cette réunion.

(c) GdR IASIS - CNRS - 2024.