Journée Action, Visage, geste, action et comportement

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

40 personnes membres du GdR ISIS, et 29 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 90 personnes.

Annonce

Titre : Journée Action "Visage, geste, action et comportement"
Date : 14/11/2019
Lieu : Salle de conférence du CNRS - Délégation Paris-Villejuif - 27 rue Paul Bert, Ivry-sur-Seine

Résumé : L'objectif de cette journée est de présenter des travaux concernant l?extraction du mouvement humain (visage, mains, corps, gestes) à partir de séquences vidéo, et son analyse à plus haut niveau (tâches, comportement), notamment pour des applications interactives ou de surveillance (video-surveillance, health monitoring, ...). Une attention particulière sera portée aux données hétérogènes (couleur, thermique, 3D, etc.) et/ou acquises dans des situations non contraintes. Les travaux présentés pourront être d'ordre méthodologiques (incluant les méthodes par apprentissage) et/ou applicatifs.

La journée inclura des conférences invitées et des communications pour lesquelles nous lançons un appel à contribution sur l'ensemble des thèmes de l'AS :

Reconnaissance d'émotions (visage, audio, geste, ...)
Reconnaissance de gestes interactifs
Reconnaissance d'actions et d'activités
Estimation de la posture articulée (corps entier, mains, etc.)
Etude de la synchronie des signaux non verbaux (mouvement de tête, tours de parole, geste, posture, ...).
Modélisation et détection de l'engagement dans les interactions
Modélisation et génération de comportements (avatar)
Applications...

Thèmes concernés :
Thème A : Méthodes et modèles en traitement du signal et de l'image
Thème B : Image et vision
Thème transverse : Apprentissage pour l'analyse du signal et des images

Appel à contributions :
Les personnes souhaitant présenter leurs travaux à cette journée sont invitées à envoyer, par e-mail, leur proposition (titre et résumé de 1 page maximum) aux organisateurs avant le 2 octobre 2019.

Orateurs invités :

Catherine Pélachaud, CNRS, ISIR UPMC
Alice Caplier, GIPSA-lab, Grenoble-INP

Organisateurs :

Catherine Achard, ISIR UPMC
Olivier Alata, Lab. Hubert Curien, Univ. Jean Monnet Saint-Etienne
Christophe Ducottet, Lab. Hubert Curien, Univ. Jean Monnet Saint-Etienne

Programme

Matin

09h50: Catherine Pélachaud - Laboratoire ISIR, CNRS, Université Pierre et Marie Curie
Modéliser des partenaires virtuels socio-émotionnels d'interaction
10h30: Frédéric Bousefsaf - UFR SciFA - LCOMS, Université de Lorraine
Analyse vidéo du visage par réseaux de neurones convolutifs 3D pour l'estimation sans contact de la fréquence cardiaque.
10h50: Pierre-Etienne Martin - Univ. Bordeaux, CNRS, Bordeaux INP, LaBRI
Détection et classification d'actions sportives en tennis de table par réseau de neurones Siamois à convolutions Spatio-Temporelles
11h10: Pause
11h30: Wassim Hamidouche - Université de Rennes, INSA Rennes, IETR - UMR CNRS 6164
A Spatiotemporal Deep Learning Solution for Automatic Micro-Expressions Recognition from Local Facial Regions
11h50: Yongzhe Yan - Institut Pascal, Université Clermont-Auvergne
Rethinking Robust Facial Landmark Detection
12h10: Delphine Poux - laboratoire CRIStAL, Université de Lille
Reconnaissance d'expressions faciales en présence d'occultations partielles du visage : exploitation de la propriété de propagation du mouvement

Après-midi

14h00: Alice Caplier - GIPSA-lab, Grenoble-INP
Analyse automatique des expressions faciales : état des lieux et challenges futurs
14h40: Omar Ben Tanfous - IMT Lille-Douai, Laboratoire CRIStAL
Sparse Representations in the Shape Manifold for Human Trajectories Classification and Generation
15h00: Sarra Zaied - Centrale Supélec Rennes, équipe FAST
Synthèse d'expressions faciales personnalisées par méthode hybride géométrique-apprentissage machine
15h20: Jingting Li - Centrale Supélec Rennes, équipe FAST
A survey on Automatic Micro-expression Spotting
15h40: Pause
16h00: Megane Millan - Université Pierre et Marie Curie, Laboratoire ISIR
Siamese Networks to Assess Action Quality
16h20: Abdallah Benzine - CEA LIST, Laboratoire de Vision et d'Apprentissage pour l'analyse de scène, Lab. ISIR
Deep, robust and single shot 3D multi-person human pose estimation in complex images
16h40: Sandie Cabon - Université de Rennes, Inserm, LTSI - UMR CNRS 1099
Extraction automatique du mouvement chez des nouveau-nés prématurés en unités de soins intensifs néonatales
17h00: Vincent Bombardier - TELECOM Nancy / CRAN- UMR CNRS 7039
Détection de lancers francs dans un match de basket

Résumés des contributions

Modéliser des partenaires virtuels socio-émotionnels d'interaction

Catherine Pélachaud

Laboratoire ISIR - CNRS, Université Pierre et Marie Curie

Dans cet exposé, je présenterai la plate-forme d'un agent conversationnel animé qui peut afficher une large palette d'attitudes sociales et d'émotions. Dernièrement, nous avons développé une architecture qui permet à un tel agent de s'adapter aux comportements non verbaux de l'utilisateur pendant une interaction dyadique. Dans un premier temps, nous avons mené trois études portant sur différents niveaux d'adaptation : stratégie conversationnelle, comportements non verbaux, et signaux. Chaque mécanisme d'adaptation a été implémenté dans la même architecture qui inclut l'analyse multimodale du comportement de l'utilisateur à l'aide de la plateforme Eyesweb (Volpe et al, 2016), un gestionnaire de dialogue (Flipper, van Waterschoot et al, 2018), un agent virtuel GRETA-VIB. Le même scénario a été utilisé pour les trois études réalisées au musée des sciences de la Cité des sciences et de l'industrie de Paris. Les résultats de ces études seront présentés.

Analyse vidéo du visage par réseaux de neurones convolutifs 3D pour l'estimation sans contact de la fréquence cardiaque

Frédéric Bousefsaf

UFR SciFA - LCOMS, Université de Lorraine

La mesure de la fréquence cardiaque par caméra est une thématique de recherche en essor croissant. L'estimation de la fréquence s'effectue par l'analyse de la photopléthysmographie sur une séquence d'images contenant un visage ou tout autre partie du corps dont la peau est visible. Les recherches récentes montrent que différentes données biomédicales d'intérêt peuvent être mesurées sans qu'aucun contact avec le sujet ne soit nécessaire. Nous avons, dans ce sens, développé un système permettant de mesurer et cartographier la fréquence cardiaque par une technique d'intelligence artificielle qui analyse directement le flux vidéo. La méthode repose sur une architecture centrée sur un réseau de neurones convolutifs 3D qui ne requiert aucun prétraitement des images. De plus, le réseau délivre une carte de prédictions de la fréquence cardiaque pour chaque groupe de pixels plutôt qu'une valeur de fréquence cardiaque unique. Les données d'apprentissage étant très limitées, nous proposons un générateur de données synthétiques qui sera utilisé pour entrainer le réseau. Les résultats, mis en concurrence avec des méthodes de l'état de l'art, montrent que cette architecture est capable d'estimer avec précision la fréquence cardiaque. Dans le futur, nous envisageons d'améliorer le réseau en augmentant le nombre de couches en vue de délivrer des estimations plus robustes face aux mouvements du corps.

(top) Conventional approach: image processing operations are applied on the video stream to detect pixels or region(s) of interest (ROI). The signal is traditionally computed using a spatial averaging operation over the ROI before being processed with spectral or temporal filters. Finally, biomedical parameters like pulse rate are estimated from this signal. (bottom) The approach we propose consists in training an artificial intelligence model using only synthetic data. The input corresponds to a video stream (image sequence). The model predicts a pulse rate for each video patch (25 x 25 pixels over 60 frames) and thus produces a map of predictions instead of a single estimation.

Détection et classification d'actions sportives en tennis de table par réseau de neurones Siamois à convolutions Spatio-Temporelles

Pierre-Etienne Martin¹ , Jenny Benois-Pineau¹ , Renaud Péteri² , Julien Morlier³

¹ Univ. Bordeaux, CNRS, Bordeaux INP, LaBRI, UMR 5800, F-33400, Talence
² MIA, La Rochelle University, La Rochelle
³ IMS, University of Bordeaux, Talence

Travaux fiancés par la Région Nouvelle Aquitaine (bourse CRISP) et l'Initiative Bordeaux Idex

La reconnaissance d'actions humaines dans les vidéos est l'un des problèmes clés de l'interprétation de données visuelles. Malgré des recherches intensives, la reconnaissance des actions à faible variabilité interclasse demeure un défi. Pour répondre à ce problème, nous présentons un réseau de neurones Siamois à convolutions Spatio-Temporelles sur une nouvelle base de donnée construite par nos soins : TTStroke-21. Notre modèle prend comme données d'entrée les images RVB et le flot optique et est capable d'atteindre une précision de 91, 4% contre 43, 1% pour notre méthode de référence. La détection et la classification simultanée dans les vidéos à l'aide d'une fenêtre temporelle glissante mène à un score de 81, 3% sur l'ensemble des données.

TTStroke-21 est constituée de vidéos avec joueurs centrées, enregistrées par des caméras GoPro dans des conditions naturelles à 120 images par seconde. Les experts en tennis de table annotent les vidéos à travers une plateforme d'annotation en utilisant une taxonomie de vingt coups selon les règles du tennis de table. Pour obtenir un ensemble de données exploitables, les annotations sont être filtrées pour supprimer les erreurs d'annotation. 1058 annotations sont conservées et une classe de rejet est construite à partir d'elles.

Les images vidéo Full HD sont redimensionnées à 320 × 180 pixels et leur flot optique (OF) est calculé hors ligne. Notre SSTCNN - Siamese Spatio-Temporal Convolutional Neural Network[1] - est constitué de 2 branches avec trois couches convolutionnelles 3D à 30, 60 et 80, suivies d'une couche entièrement connectée de taille 500. Une branche prend les valeurs RVB en entrée, et l'autre l'OF estimé[2]. Les couches convolutionnelles 3D utilisent des filtres spatio-temporels de taille 3×3×3. Les deux branches sont fusionnées à travers une couche finale entièrement connectée suivie d'une fonction Softmax pour obtenir les probabilités de classification en sortie.

Ces travaux visent à améliorer les performances des athlètes en développant de nouvelles méthodes et de nouveaux outils pour les entraîneurs et les étudiants. Nous sommes en mesure de segmenter dans le temps et de classer différentes parties de Tennis de Table. Dans un proche avenir, d'autres informations seront extraites afin de caractériser la qualité d'un coup effectué ou l'établissement de statistiques sur les joueurs. Le même protocole pourrait être étendu à d'autres sports en adaptant les classes et la taille de nos cuboïdes vidéo en fonction des règles spécifiques du sport d'intérêt. Cependant, il faut disposer d'un ensemble de données dédié à chaque sport. Dans notre cas, l'ensemble de données TTStroke-21 est encore enrichi pour améliorer les performances de notre modèle SSTCNNN et rendre possible de meilleurs outils pour les entraneurs et les étudiants.

References
[1] Pierre-Etienne Martin, Jenny Benois-Pineau, Renaud Péteri, and Julien Morlier, "Sport action recognition with siamese spatio-temporal cnns: Application to table tennis," in CBMI 2018. 2018, pp. 1-6, IEEE.

[2] Pierre-Etienne Martin, Jenny Benois-Pineau, Renaud Péteri, and Julien Morlier, "Optimal choice of motion estimation methods for fine-grained action classification with 3d convolutional networks," in ICIP. 2019, IEEE.

A Spatiotemporal Deep Learning Solution for Automatic Micro-Expressions Recognition from Local Facial Regions

Mouath Aouayeb, Wassim Hamidouche and Kidiyo Kpalma

Université de Rennes, INSA Rennes, CNRS, IETR - UMR 6164, Rennes, France.

Humans always try to hide their Macro-Expressions (MaE) to conceal their real emotion, and it is hard to distinguish between true and false emotions even with artificial intelligence. Micro-Expressions (MiEs), on the contrary, are spontaneous and fast, undetectable with the naked eye and thus always inform us of true feelings. Therefore , there is plenty of studies to generate an automatic system of detecting and analyzing these MiEs. In this paper we propose a new solution that relies on a combination of Convolutional Neural Network (CNN) and Long Short Term Memory (LSTM) applied on particular regions of the face to extract relevant spatial and temporal features, respectively, for MiEs recognition. The proposed solution achieves high recognition accuracy of 90% precision on a different databases including SMIC, CASME II and SAMM. Moreover, under the conditions of Micro-Expression Grand Challenge (MEGC) 2019, our approach performs better than the state of the art solutions including the ones proposed in the challenge.

Rethinking Robust Facial Landmark Detection

Yongzhe Yan

Institut Pascal, Université Clermont-Auvergne

Facial landmark detection is an important pre-processing task for most of the facial applications. In recent years, the performance of facial landmark detection has been significantly improved by using deep Convolutional Neural Networks (CNN), especially the Heatmap Regression Models (HRMs). Although their performance on the current datasets have reached a high level, the robustness still remains a challenging problem in the practical use.

To improve the robustness, most of the work focus on the design of the models. However, we think that improving the robustness requires rethinking many other aspects, including the use of datasets, the format of landmark annotation, the evaluation metric, the loss function and the way to sample numerical coordinates on the HRMs.

In this paper, we first empirically analyze the phenomenon of the robustness problem of the HRMs and show the disadvantages of the current evaluation metric. Second, we propose several modifications to the current evaluation metric, which are able to better indicate the robustness of the models. Third, we propose a novel method to improve the robustness of the HRMs, which can be plugged-and-play on most state-of-the-art HRMs without additional complexity. Our method consists of using 2D Wasserstein Loss, enlarging the ? (standard deviation) of Gaussian distribution and sampling the numerical coordinates by calculating the barycenter of the distribution on the output heatmap. We validate our method through extensive experiments. Finally, we provide discussions with respect to various aspects related to the robustness.

Reconnaissance d'expressions faciales en présence d'occultations partielles du visage : exploitation de la propriété de propagation du mouvement

Delphine Poux

Laboratoire CRIStAL, Université de Lille

La reconnaissance automatique des expressions faciales peut s'avérer très utile dans différents domaines tels que la santé ou le marketing. Bien que des algorithmes permettent d'avoir de très bons résultats en environnement contraint, la reconnaissance en environnement naturel reste encore aujourd'hui confrontée à certains défis et notamment les occultations partielles du visage. Des occultations partielles peuvent, en effet, survenir en environnement naturel, par des accessoires (foulard, lunettes, ...) ou par les mouvements de la personne elle-même (la main qui passe devant le visage, par exemple). Ces occultations impliquent alors une perte d'information et ajoutent du bruit à la donnée initiale.

Pour répondre à cette problématique, on peut regrouper les solutions proposées dans l'état de l'art sous deux grandes catégories. D'un côté, les solutions qui tentent de reconstruire les parties cachées du visage pour revenir dans un cadre idéal de reconnaissance et, d'un autre côté, celles qui se concentrent sur les informations disponibles malgré l'occultation, c'est-à-dire sur les régions visibles du visage.

Cette deuxième catégorie de solution nous semble intéressante à explorer car elle a l'avantage d'exploiter uniquement l'information disponible et donc complètement fiable. Les solutions qui se basent sur l'exploitation des régions visibles sont principalement basées sur des données de texture. Pourtant, lors d'une occultation d'éléments importants du visage (comme la bouche notamment), une grande partie de l'information cachée est perdue lorsque l'on se concentre sur la texture. Si l'on étudie une occultation importante en étudiant plutôt le mouvement, l'information restante est beaucoup plus importante car le mouvement aura tendance à se propager aux régions voisines du visage.

Afin d'utiliser l'information restante sur les régions visibles du visage tout en exploitant les propriétés de propagation du mouvement, nous proposons de calculer des modèles faciaux adaptés à chaque occultation en limitant le nombre de régions du visage nécessaires pour reconnaitre les différentes expressions malgré des occultations importantes. Pour ce faire, nous étudions, dans un premier temps, l'importance de chaque région du visage pour la reconnaissance de chaque expression faciale en la représentant sous forme de poids. Ces poids sont alors recalculés en présence d'occultations partielles du visage pour déterminer les régions les plus importantes parmi les régions visibles du visage. Ces poids permettent alors de construire des modèles faciaux adaptés à chaque expression en fonction de différentes occultations. Un mécanisme de fusion permet, enfin, de reconnaitre l'expression en situation d'occultation. Notre solution montre des résultats similaires à l'état de l'art malgré des occultations, souvent, beaucoup plus importantes que celles proposées dans la littérature.

Analyse automatique des expressions faciales : état des lieux et challenges futurs

Alice Caplier

GIPSA-lab, Grenoble-INP

Dans cette présentation, nous commencerons par définir ce qu'est une expression faciale et en quoi elle a un lien ou non avec les émotions. Nous donnerons un aperçu de l'évolution des méthodes de reconnaissance automatique de ces expressions faciales ainsi que de leurs performances. Avec la mise en évidence des problèmes à résoudre dans ce contexte, nous terminerons par les challenges non résolus dans le domaine à l'heure actuelle.

Sparse Representations in the Shape Manifold for Human Trajectories Classification and Generation

Omar Ben Tanfous

IMT Lille-Douai, Laboratoire CRIStAL

Designing intelligent systems to understand video content has been a hot research topic in the past few decades since it helps compensate the limited human capabilities of analyzing videos in an efficient way. In particular, human behavior understanding in videos is receiving a huge interest due to its many potential applications. At the same time, the detection and tracking of human landmarks in video streams has gained in reliability partly due to the availability of affordable RGB-D sensors. This infer time-varying geometric data which play an important role in the automatic human motion analysis. However, such analysis remains challenging due to enormous view variations, inaccurate detection of landmarks, large intra- and inter- class variations, and insufficiency of annotated data. In this work, we propose novel frameworks to classify and generate 2D/3D sequences of human landmarks. We first represent them as trajectories in the shape manifold which allows for a view-invariant analysis. However, this manifold is nonlinear and thereby standard computational tools and machine learning techniques could not be applied in a straightforward manner. As a solution, we exploit notions of Riemannian geometry to encode these trajectories based on sparse coding and dictionary learning. This yields sparse representations that lie in vector space, that are more discriminative and less noisy than the original data. We study intrinsic and extrinsic paradigms of sparse coding and dictionary learning in the shape manifold and provide a comprehensive evaluation on their use according to the nature of the data. Based on these sparse representations, we present two frameworks to recognize 3D actions and 2D facial expressions and show that they achieve competitive performance in comparison to the state-of-the-art. Finally, we design a generative model allowing to synthesize human actions. The main idea is to train a generative adversarial network to generate new sparse representations that are then transformed to pose sequences. This framework is applied to the task of data augmentation allowing to improve the classification performance. In addition, the generated pose sequences are used to guide a second framework to generate human videos by means of pose transfer of each pose to a texture image. We show that the obtained videos are realistic and have better appearance and motion consistency than a recent state-of-the-art baseline.

Synthèse d'expressions faciales personnalisées par méthode hybride géométrique-apprentissage machine

Sarra Zaied, Catherine Soladié et Pierre-Yves Richard

Centrale Supélec Rennes, équipe FAST

Ces travaux s'effectuent dans le cadre du projet ARN REFLET, qui vise à créer un miroir déformant numérique temps réel, permettant au sujet qui se regarde dans le miroir de se voir légèrement plus souriant. L'objectif est d'analyser l'effet de rétroaction émotionnelle (" nous voir plus positif nous fait nous sentir plus positif ") et l'impact de cette déformation sur des personnes PTSD. Une première version du miroir est en cours de tests à l'hôpital PERCY. Cette présentation sera accompagnée d'une démonstration du miroir.

De nombreuses méthodes géométriques ou d'apprentissage machine ont vu le jour récemment pour synthétiser des expressions faciales. Les techniques géométriques sont très efficaces pour modifier la forme du visage, mais ont du mal à générer des détails de textures tels que les rides ou les dents. D'un autre côté, les méthodes d'apprentissage machine telle que le GAN génèrent des expressions photoréalistes incluant des détails de textures ; mais ces méthodes ne permettent pas de générer des déformations personnalisées, c'est-à-dire conforme à la façon précise qu'à le sujet d'exprimer son émotion.

Dans cette présentation, nous proposons une méthode hybride, mixant les avantages des deux techniques (géométrique et apprentissage machine) pour synthétiser des expressions photo-réalistes de joie personnalisées, c'est-à-dire qui gardent l'identité de la personne et sa façon d'exprimer son émotion.

Plus précisément, notre approche combine une méthode de warping 2D et un réseau adversarial génératif (GAN), pour générer à la fois une forme et une texture d'expression faciale pertinente. Afin de conserver la façon d'exprimer l'émotion propre au sujet, nous apprenons préalablement cette information et créons un modèle paramétrique pour chaque sujet. Ce modèle est alors utilisé par notre système pour personnaliser la déformation.

Les résultats quantitatifs et qualitatifs montrent que cette méthode hybride permet de générer des expressions de joie personnalisées, plus proches des expressions réelles du sujet que les méthodes de l'état de l'art - quelles soient géométriques ou qu'elles utilisent l'apprentissage machine.

A survey on Automatic Micro-expression Spotting

Jingting Li, Catherine Soladié, Renaud Séguier

Centrale Supélec Rennes

Micro-expression (ME) is a brief local spontaneous facial expression and an important non-verbal clue to revealing genuine emotion. The study of automatic ME analysis has been emerging in the last decade. Most research focuses on the ME recognition. Yet, spotting ME in videos is the first and essential step for automatic ME analysis in real life. In this presentation, we conduct a survey on ME spotting analysis.

Firstly, since the research is restricted by the number of ME databases and the sample amounts, we propose a systematic analysis based on the 15 existing ME databases. In this analysis, we define 18 major characteristics for ME databases and group them into four categories (population, hardware, experimental protocol, and annotation). These characteristics provide a reference not only for choosing a database for special ME spotting purpose but also for future database construction.

Secondly, as there is no agreement on result evaluation methods and metrics for ME spotting, we summarize the measurements for different spotting research and point out our proposition for the result evaluation, which has been used in the first ME spotting challenge of FG2019.

Thirdly, we comprehensively review 40 published ME spotting methods. The utilized features and the algorithms are analyzed whether or not they take into account the three major characteristics: ME nature, data and application of the spotting method. The future research direction is also discussed based on the merits and disadvantages of current methods.

Finally, since the ME spotting is an intermediate step for ME analysis, we investigate the ME spotting- and-recognition schema for the emotion recognition applications in real life.

In conclusion, our survey on these four fundamental aspects of ME spotting build a guideline for the micro-expression analysis from the past to the future.

Siamese Networks to Assess Action Quality

Megane Millan, Catherine Achard

Université Pierre et Marie Curie, Laboratoire ISIR

This talk presents an Action Quality Assessment (AQA) approach that learns to automatically score action completion from temporal sequences like videos or kinematics data.

To manage the small size of most of the databases capturing action or gesture, we propose to use Siamese networks. In the literature, they have been widely employed to rank action score. Indeed, the purpose is not to predict an expert's score but to predict a value that respects the ordering of expert's scores so that it can be used to rank actions according to their quality.

For AQA, we need to predict the real score, a value that respects the ordering of expert's scores, the difference between expert's scores and the range of expert's scores. Thus, we first introduce a new loss function in Siamese Network that learns the gap between two expert's scores. Then, a fully connected layer is added to a single branch of the Siamese Network to get the score offset.

We tested our approach on two public databases: the AQA-7 database composed of videos from 7 sports and the JIGSAWS database composed of kinematics data of surgery. On both databases, results outperform state of the art on AQA task. Moreover, we show that the proposed method is also more efficient for action ranking.

Deep, robust and single shot 3D multi-person human pose estimation in complex images

Abdallah Benzine, Quoc Cuong Pham

CEA LIST, Computer Vision and Machine Learning Lab for Scene Analysis, Gif-sur-Yvette, France
Sorbonne University, CNRS, Institute for Intelligent Systems and Robotics, ISIR, France

In this paper, we propose a new single shot method for multi-person 3D hu- man pose estimation in complex images. The model jointly learns to locate the human joints in the image, to estimate their 3D coordinates and to group these predictions into full human skeletons. The proposed method deals with a variable number of people and does not need bounding boxes to estimate the 3D poses. It leverages and extends the Stacked Hourglass Network and its multi-scale feature learning to manage multi-person situations. Thus, we exploit a robust 3D human pose formulation to fully describe several 3D hu- man poses even in case of strong occlusions or crops. Then, joint grouping and human pose estimation for an arbitrary number of people are performed using the associative embedding method. Our approach significantly outper- forms the state of the art on the challenging CMU Panoptic. Furthermore, it leads to good results on the complex and synthetic images from the newly proposed JTA Dataset.

Keywords: multi-person, 3D, human pose, deep learning

Extraction automatique du mouvement chez des nouveau-nés prématurés en unités de soins intensifs néonatales

Sandie Cabon, Raphael Weber, Fabienne Porée, Antoine Simon, Guy Carrault

Université de Rennes, Inserm, LTSI - UMR 1099, F-35000 Rennes

Dans le monde, 15 millions de bébés naissent prématurément chaque année et ce nombre augmente dans presque tous les pays dont les données sont accessibles. En France, cela représente 6% des naissances, soit environ 60 000 naissances par an. La prématurité est la principale cause de mortalité néonatale et des solutions pour améliorer la prise en charge peuvent encore être développées.

En effet, la maturation neurocomportementale des nouveau-nés prématurés est aujourd'hui évaluée ponctuellement. Dans la pratique, ce suivi est réalisé lors d'observations, effectuées en présence de l'enfant par des infirmières qualifiées. Au cours de ces observations, plusieurs composantes sont observées telles que les stades de sommeil, les activités vocales, motrices ou faciales car ces éléments se sont avérés pertinents pour la détection de divers troubles neurologiques. Toutefois, plusieurs limites entravent la généralisation de ces observations. En effet, cette opération prend beaucoup de temps et seule une petite partie des nouveau-nés peut alors en bénéficier. De plus, bien qu'elles soient effectuées par des infirmières spécialement formées, ces observations restent subjectives.

L'objectif de ces travaux, conduits dans le cadre du projet européen Digi-NewB est donc de proposer une nouvelle approche non invasive de monitoring en unités de soins intensifs néonatales (NICU). Ce nouveau monitoring doit permettre d'évaluer de façon continue le développement neuro comportemental des nouveau-nés prématurés à partir de modalités non invasives telles que la vidéo et l'audio. Dans un premier temps, un nouveau système audio-vidéo a été développé et son intégration en NICU a été étudiée. Cela a permis d'acquérir une large base de données multimodales (vidéos noir et blanc infrarouge, couleur, thermique et audio) en conditions réelles et non contraintes. Nos travaux ont ensuite porté sur la quantification du mouvement des nouveau-nés à partir des vidéos noir et blanc. Pour cela, des solutions permettant d'écarter les périodes non analysables de ces enregistrements ont d'abord dues être mises en ?uvre. Premièrement, un algorithme permettant de détecter les périodes de présence d'adultes (parents, personnel médical...) dans le champ de la caméra a été proposé. Il est basé sur l'analyse des changements dans le contour de l'image. En parallèle, une approche par apprentissage profond a été initiée afin de détecter la présence des nouveau-nés dans les différents lits. A partir de là, une approche basée sur un modèle KNN et permettant une caractérisation continue de l'organisation du mouvement a été développée. Les résultats obtenus sont encourageants et montrent qu'il est aujourd'hui possible d'imaginer une nouvelle génération de monitoring basée sur des analyses non invasives pour caractériser le développement neurocomportemental du nouveau-né.

Mots clés : Nouveau-nés prématurés, développement neurocomportemental, surveillance, unités de soins néonatales, traitements vidéo, mouvement.

Détection de lancers francs dans un match de basket

Vincent Bombardier, Florent Lefevre

TELECOM Nancy / CRAN- UMR 7039

Cette étude se place dans le cadre d'une thèse CIFRE entre le CRAN et la société CitizenCam. Cette entreprise a pour objectif de rendre la captation et la diffusion de tout type d'évènement accessible économiquement en proposant un système multi-caméras. Afin de réduire les coûts et d'améliorer le confort utilisateur, l'entreprise souhaite proposer un système de montage automatique, adaptable à chaque contexte d'application. De plus, CitizenCam souhaite proposer différents flux vidéo répondant aux desiderata des spectateurs. Une étude bibliographique sur le montage automatique de séquences vidéo a montré que les méthodes existantes sont très spécifiques au contexte applicatif et donc très peu généralisables.

Dans le cadre de la thèse, nous avons proposé une approche méthodologique du montage automatique, basée sur une structure générique pouvant être adaptée en fonction du contexte, tout en prenant en compte des préférences utilisateurs. Cette approche est basée sur la modélisation des connaissances du contexte applicatif qui nous permet d'identifier les sources d'intérêts : les personnes et les actions. De plus l'exploitation des connaissances nous permet d'aider à mettre en place les méthodes permettant l'extraction des caractéristiques sur ces sources d'intérêts.

Nous nous intéressons dans cette étude à la détection de l'action d'intérêt " Lancer franc ", afin de fournir aux spectateurs un flux vidéo personnalisé contenant uniquement les lancers francs ayant eu lieu durant la rencontre. Pour ce faire, nous nous basons sur les informations fournies par le règlement officiel de la fédération internationale de basket amateur. Ce texte rassemble un certain nombre de connaissances sur les actions ayant lieu lors d'une rencontre et notamment des informations sur le déroulement de l'action lancer franc dans l'article 43. L'exploitation de ce document nous permet également de recueillir des informations sur la position que doivent respecter les joueurs durant toute la durée de cet évènement.

Ces informations sont utilisées afin de mettre en place une méthode de détection de lancers francs. L'utilisation d'une caméra azimutale afin de capter l'évènement, permet de comparer les zones de lancers francs et les positions des joueurs. Les régions d'intérêt correspondantes aux positions attendues lors d'un lancer franc sont définies manuellement. Les positions des joueurs sont extraites grâce à la soustraction du fond de la scène, modélisé par un mélange de Gaussienne, aux images de la caméra. Un lancer franc est détecté lorsque les joueurs participant à l'action sont dans les positions de lancer franc tandis que les autres joueurs se trouvent derrière la ligne de lancer franc. Afin d'éviter des fausses détections lorsque les joueurs traversent les zones définies, un lancer franc est détecté lorsque les conditions sont réunies pendant un nombre d'images successives suffisant.

La méthode proposée a été testée sur différents extraits vidéos contenants des lancers francs annotés manuellement. Pour chacune des vidéos, l'ensemble des lancers francs ont été détectés avec une précision comprise entre 81 et 100%. La majorité des erreurs de détections ont lieu lors de la mise en place du lancer franc et entre deux lancers francs successifs, du fait que les joueurs se déplacent par rapport à leurs zones. Dans l'objectif de proposer un flux vidéo monté, il est préférable de ne montrer que les vrais lancers francs quitte à en manquer le début (mise en place). Un délai de 10 images permet de détecter tous les lancer francs, tout en évitant un grand nombre de faux-positifs. Afin de proposer la visualisation de la totalité des lancers-francs, la date de début de l'action pourra être avancée en fonction du délai. Les résultats montrent que le système proposé permet de pouvoir proposer aux spectateurs un flux vidéo personnalisé contenant les lancers-francs ayant eu lieu lors d'une rencontre.

Identification