Vous êtes ici : Réunions » Réunion

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Interaction homme/robot

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

0 personnes membres du GdR ISIS, et 0 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 0 personnes.

Annonce

Le Groupe de travail Interactions personnes / systèmes robotiques du GdR de Robotique et l'action Visage, geste, action et comportement du GdR ISIS organisent une journée commune sur l'interaction homme-robot le 14 juin 2010 à Paris, afin de rassembler ces deux communautés, et d'ouvrir de nouvelles portes, à la fois théoriques et applicatives.

L'objectif de la journée est d'explorer les problématiques méthodologiques et applicatives liées à l'étude de l'homme pour les interactions (multimodalité, signaux socio-émotionnels). Les applications visées couvrent: l'interface homme-machine, la robotique de service, l'assistance aux personnes déficientes, ...

Ces problématiques font appel à un domaine de recherche très vaste, allant des traitements bas niveau jusqu'à des méthodes d'apprentissage évoluées, en passant par l'étude et la commande des robots. Ainsi, un des buts de cette journée est de promouvoir des coopérations méthodologiques entre équipes de recherche au niveau national et européen.

Nous appelons des communications sur les thèmes :

Les résumés des propositions (1/2 page environ) doivent être adressés par courrier électronique le 30 mai au plus tard.

Programme

Résumés des contributions

Perception multisensorielle de l'homme pour un robot mobile assistant en milieu humain encombré

T. Germa, F. Lerasle, N. Ouadah, V. Cadenat
LAAS-CNRS

Cet exposé porte sur la perception de l'homme depuis des capteurs embarqués sur un robot mobile afin de permettre sa navigation dans un environnement humain pour : (1) partager l'espace avec les passants (interaction passive H/R) et, (2) suivre à distance sociale une personne cible i.e. l'interlocuteur du robot (interaction active H/R). L'exposé présente les différents robots guide existants dans la communauté Robotique puis se focalise sur les développements réalisés et courants sur la plateforme Rackham du LAAS-CNRS. ces travaux ont mis l'accent sur la fusion hétérogène de données extéroceptives i.e. laser, vision, RFID au sein de détecteurs et filtres tirant partie de méthodes de Monte Carlo. Cet exposé décrit alors les derniers travaux réalisés sur le suivi d'une personne cible dans un environnement humain encombré par des techniques d'asservissement perceptuel à partir de percepts multisensorielles de personnes et leur fusion au sein de traqueurs mono- et multi-cibles. Ces développements sont illustrés par des démonstrations réelles sur le robot mobile Rackham.

Mot-clés : robotique mobile, détection/identification de personnes, suivi mono et multi-cibles, filtrage particulaire, chaîne de Markov de Monte Carlo, fusion de données hétérogènes, asservissement visuel.

Communication socio-émotionnelle humain-machine

Magalie Ochs, Elisabetta Bevacqua, Radoslaw Niewiadomski, Ken Prépin et Catherine Pelachaud
CNRS-LTCI, Télécom ParisTech

Dans une interaction interpersonnelle, le comportement non-verbal (gestes, expressions faciales, etc.) des individus joue un rôle prépondérant dans la communication. Suivant le geste ou l'expression faciale qui accompagne le message verbal du locuteur, son interprétation par l'interlocuteur peut varier du tout à son contraire. De la même manière, le comportement non-verbal de l'interlocuteur est utilisé par le locuteur pour adapter son discours.
Dans une interaction humain-machine, l'utilisateur utilise ces mêmes éléments socio-émotionnels pour communiquer avec une entité artificielle. Pour faciliter l'interaction, il est donc essentiel que les agents virtuels et physiques accompagnent leur discours de signaux socio-émotionnels cohérents. Placés à tour de rôle dans la position « de celui qui parle » et de « celui qui écoute », les agents virtuels et physiques doivent adopter le comportement non-verbal en conséquence. Par exemple, dans la position du locuteur, les expressions faciales vont permettre de transmettre la dimension émotionnelle de l'évènement raconté. Un simple sourire peut aussi être utilisé par l'agent pour rassurer et montrer de la bienveillance envers l'utilisateur. Dans la position de l'interlocuteur, le comportement non-verbal de l'agent, comme ses hochements de tête ou ses mouvements de sourcils, va être essentiel pour encourager l'utilisateur dans sa narration.
Ces signaux socio-émotionnels doivent être étudiés à la fois hors contexte et en contexte. En effet, une première problématique est de construire des lexiques d'expressions pour déterminer comment un signal donné est interprété. Par exemple, un sourire d'un agent virtuel, suivant ses caractéristiques morphologiques et dynamiques, peut traduire de l'amusement, de l'embarras ou encore de la politesse. Cependant, ces signaux en contexte peuvent être interprétés différemment. Par exemple, le sourire d'un agent en réponse à un évènement triste raconté par l'utilisateur ne sera pas interprété comme de la bienveillance ou de l'encouragement.
Finalement, dans une interaction, la synchronie des comportements non-verbaux entre l'utilisateur et l'agent virtuel ou physique est un élément qui peut être utilisé comme indice d'une bonne interaction et d'une compréhension mutuelle.

Moteur de contrôler de gestes pour le humanoïde robot NAO

LE Quoc Anh, PELACHAUD Catherine
CNRS - LTCI UMR 5141 Institut TELECOM - TELECOM ParisTech

Le laboratoire CNRS LTCI (Laboratoire de Traitement et de la Communication de l'Information) à Télécom ParisTech développe depuis plusieurs années un agent conversationnel animé, appelé Greta, capable d'exprimer différents états émotionnels par son comportement multimodal (expressions faciales, gestes, regard, etc). Le projet GV-LEX vise à doter un robot humanoïde de la capacité à lire une histoire, la plus agréablement et expressivement possible, aussi bien par la voix que par une gestuelle expressive. Dans le cadre de ce projet, notre travail en cours est d’utiliser la plate-forme de Greta pour contrôler les gestes expressifs du robot NAO.
Cependant, à cause des différences entre Greta et Nao telles que le degré de libertés, la vitesse, la forme du corps, ... (par exemple, les interpolateurs des mouvements du robot ne pourront pas arriver à certaines positions singulières ou bien des limitations physiques ne permettent pas au robot de bouger aussi vite que Greta le fait), nous avons adapté la plate-forme de Greta pour contrôler le robot. Comme le robot ne peut pas effectuer les mêmes gestes que Greta, nous avons du adapter le répertoire des gestes de l'agent pour le robot. Ce répertoire des gestes est crée à l'aide d'un langage symbolique de représentation de gestes, BML - Behavior Markup Language.
Notre prochaine étape de travail consiste à définir un niveau de description compatible avec la performance du robot. En outre, selon le travail théorique de Calbris (thèse, 1982), un geste est défini par une partie invariante qui contient sa signification. Les différents agents (e.g. Nao ou Greta) doivent pouvoir communiquer certaine intention. Nous utiliserons la notion d'invariant pour construire les gestes adaptés aux limitations physiques du robot.

Interactions personnes / systèmes robotiques à partir de caméras

M. Barnachon, O. Ben-Henia, L. Dutreve, M. Portela Sotelo, A. Meyer, E. Guillou, S. Bouakaz, J.M. Moreau, E. Desserée
LIRIS - CNRS UMR 5205

  1. Animations faciales
    Une des thématique de l'équipe porte sur la capture et le transfert d'animations faciales, avec application aux loisirs numériques. L'animation faciale est un des points clés dans le réalisme des scènes 3D mettant en scène des humains, ceci à cause de notre faculté de détecter et d'analyser les mouvements les plus fins d'un visage. Dans ce contexte, nous présenterons deux aspects de nos travaux sur l'animation de visage qui s'appuient sur des aspects vision/analyse :
    • la mise en correspondance de deux maillages de visage qui nous sert à transférer de paramètres d'animations d'un visage générique à un visage que l'on désire animer ;
    • la capture monoculaire de mouvement de visage avec peu de marqueurs et leur transfert, avec pour perspective la capturer des détails de déformations de peaux.
  2. Motion Capture
    Un autre pan de recherche est axé sur la capture de mouvement du corps humain à l'aide de caméras. Dans des espaces d'acquisition vastes, nous sommes en mesure de reconstruire de façon voxélique un corps, et d'identifier sa pose. Diverses méthodes ont été proposées, fournissant des résultats de bonne qualité dans un environnement peu contrôlé.
    Par ailleurs deux méthodes ont été proposé afin de suivre et reproduire les gestes d'une main, avec une seul caméra et sans marqueur. L'estimation de la pose 3D est de bonne qualité et ouvre la porte à de nombreuses interactions avec un ordinateur.
  3. Suivi multi-objets basé modèle pour le contrôle de positionnement à partir de vidéo dans une salle de traitement
    Les récentes évolutions du traitement des tumeurs par radiothérapie demandent de développer de nouveaux outils d'assistance pour contrôler à la fois le positionnement du patient par rapport à une position de référence, mais aussi celui des robots chargés d'effectuer des tâches à distance relatives au déplacement du patient ou des équipements liés à la séance de traitement. Le suivi à chaque instant de tous les éléments de la salle permettrait de réduire la probabilité d'erreurs d'ordre physique (manipulations, collisions, mouvements involontaires, etc.) mais aussi d'erreurs dans la configuration de la salle de traitement par rapport au patient traité (principalement la présence et l'emplacement des machines et des objets liés au traitement). Notre travail exploite les informations du patient (obtenues par imagerie), souvent très précises, et du traitement (position des machines, accessoires utilisés, etc.), pour créer un modèle numérique de la salle pour un patient donnée. Ce modèle est ensuite manipulé à l'aide des techniques de recalage 3D afin de d'obtenir une représentation numérique équivalente à la réalité (vue par les caméras) à "tout instant". La complexité de ce type de techniques est réduite par les contraintes liées aux traitements par radiothérapie, la salle de traitement étant un "milieu contrôlé".
  4. Travaux en cours
    Nous sommes actuellement en train de travailler sur l'interprétation de ces captures. Une des pistes explorées est l'interaction Homme-Machine. L'interprétation dans le cadre de la robotique semble tout aussi pertinent. De même, l'utilisation de ses méthodes de capture afin de reconnaitre des émotions est en cours d'étude. Dans ce contexte, nous bénéficions de méthodes de capture orientées sur l'humain et sur ses parties plus spécifiques (tête et mains). Notre présentation s'articulera autour des possibilités offertes par chacune de ses méthodes pour l'interaction Homme / Robotique.

Reconnaissance d'activités individuelles dans les séquences vidéo

Christian Wolf, Graham Taylor, Jean-Michel Jolion
LIRIS- CNRS UMR 5205 & New York University

Nous présentons un nouvel algorithme capable de classifier et de localiser des activités humaines individuelles à partir de séquences vidéos très courtes, à savoir de 7 images. Notre méthode est basée sur un modèle graphique probabiliste génératif caractérisant l'évolution temporelle de formes binaires (des silhouettes) correspondant à une personne. Ces formes sont produites au préalable par une étape de soustraction de fonds.
Des caractéristiques de forme de bas niveau sont extraites de ces courts séquences binaires et données à un modèle graphique probabiliste hiérarchique de type conditional deep belief network, qui apprend l'évolution temporelle des caractéristiques de bas niveau grâce à des interactions avec un ensemble de variables cachées binaires. Aucun modèle d'apparence est nécessaire. Les actions sont classées par un SVM entraîné sur les probabilités a posteriori des caractéristiques latentes extraites par le modèle de mouvement. Nous avons testé l'algorithme sur deux différents bases de données. Nous obtenons un taux de classification de 100% (par vidéo, à l'aide d'une stratégie de vote) sur la base standard Weizmann, et un taux de classification presque parfait de 99,9% par séquence courte de 7 frames.

La convergence phonétique : vue d'ensemble et expériences préliminaires

Amélie Lelong, Gérard Bailly, Frédéric Elisei
GIPSA-LAB, Grenoble

De nombreuses études psycholinguistiques ont montré que des interlocuteurs adaptent leur façon de parler selon la personne qui se trouve en face d'elles, par exemple pour le choix des mots et des expressions de référence (Brennan & Clark, 96), ou encore pour les paramètres prosodiques comme le volume (Welkowitz et al, 72) ou le registre de f0 (Gregory et al, 93). Cette adaptation a pour but de simplifier l'échange de messages dont le contenu est très dépendant du contexte (Lakin et al, 03), et améliore la capacité de percevoir, comprendre et accepter de nouvelles informations (Allwood et al 92, Traum & Allen, 92). On peut légitimement attendre d'un robot en situation d'interaction face-à-face qu'il se comporte de la même façon. La plateforme Mical du laboratoire GIPSA-lab, dédiée à l'étude du face-à-face homme-homme ou homme-machine, a été utilisée pour enregistrer des données destinées à construire un modèle dédié au pilotage d'un robot. Les conditions matérielles de cette expérimentation (enregistrement des mouvements de tête, monitoring visuel et enregistrements audio), leur exploitation statistique ainsi que les premiers résultats seront présentés.
Scénario et protocole
Les deux principales études concernant la convergence phonétique sont celles de Pardo (2006) et Delvaux et Soquet (2007), mais ces études se concentrent davantage sur la convergence phonologique et de prononciation (comparaison de différents accents d'un même pays) plutôt que sur la convergence phonétique. Nous avons donc imaginé un scénario basé sur un jeu appelé « dominos verbaux ». Durant le jeu, l'interlocuteur doit choisir parmi deux possibilités le mot qu'il devra prononcer, celui-ci doit commencer par la même syllabe que la dernière syllabe du mot prononcé précédemment par son interlocuteur. Cela nous permet de récolter uniformément une quarantaine d'exemplaires des 8 voyelles orales périphériques du français.
Nous avons fait des enregistrements sous plusieurs conditions. Un pré-test a été enregistré pour chaque sujet avant qu'il n'y ait eu une interaction, il servira de référence pour mesurer la convergence. On enregistre ensuite une interaction entre un sujet et une personne de référence, une interaction ambiante durant laquelle le sujet joue avec un signal préenregistré et enfin un post-test pour mesurer le phénomène de mimesis.
Trois types d'expériences ont été menées. Durant la première, on a fait interagir des personnes qui ne s'étaient jamais rencontrées, ensuite, des amis de longue date pendant la deuxième phase. Dans ces deux cas, les personnes se trouvent dans deux salles séparées et communiquent grâce à des microphones et à des écouteurs. Enfin pendant le dernier type d'expérience, on a fait interagir des amis mais cette fois-ci en face-à-face comme le montre l'image suivante. Dans le dernier cas, les mouvements de tête sont enregistrés par un système de capture de mouvement, afin de construire un modèle qui pourra piloter le robot ou l'agent virtuel qui communiquera avec un humain.
Pour analyser les résultats, nous avons entraîné des HMM (Modèles de Markov cachés avec HTK) de chaque voyelle de chaque sujet en contexte indépendant en utilisant le pré-test, puis après un alignement forcé on compare la distribution des scores de reconnaissance normalisés en utilisant le modèle du sujet dans un cas et celui de notre personne de référence dans l'autre. S'il y a convergence, le score de reconnaissance avec son propre modèle doit se dégrader et celui avec le modèle de l'interlocuteur doit s'améliorer.
Nous utiliserons ces résultats préliminaires pour sélectionner les sujets pour les prochaines expériences. Notre but est d'intégrer ce phénomène d'adaptation à un système de synthèse car il nous semble crucial pour établir un rapport social entre un humain et un agent virtuel ou robot. Les autres modalités (mouvements de tête, gestion du regard) seront aussi étudiées.

Analyse, détection et modélisation de signaux pour l'interaction avec l'homme

Mohamed Chetouani
ISIR- UMR7222 - Université Pierre et Marie Curie

L'analyse des signaux dans le cadre de l'interaction se focalise essentiellement sur les communications verbale et non-verbale. Il en découle des traitements spécifiques en traitement de la parole, du visage ou bien encore du geste. Les approches multi-modales permettent non seulement d'améliorer la robustesse de l'analyse de la communication mais également d'étudier des phénomènes d'ajustement des interlocuteurs. Ces aspects jouent maintenant un rôle fondamental dans la conception des systèmes robotiques. Durant notre présentation, nous illustrerons ces ajustements de comportements par des méthodologies de caractérisation et de détection de signaux lors d'interaction parent- bébé d'une part et d'homme-robot d'autre part. Les techniques mises en oeuvre font appel au traitement du signal et à la reconnaissance des formes pour la modélisation de l'interaction.

Date : 2010-06-14

Lieu : TélécomParistech - Amphi Thévenin


Thèmes scientifiques :
B - Image et Vision

Inscriptions closes à cette réunion.

Accéder au compte-rendu de cette réunion.

(c) GdR IASIS - CNRS - 2024.