Vous êtes ici : Réunions » Réunion

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Analyse conjointe des images RGB-Depth

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

20 personnes membres du GdR ISIS, et 28 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 100 personnes.

Annonce

Depuis quelques années, émergent des dispositifs grand public délivrant simultanément des images couleur et de profondeur, tels que la Kinect ou les caméras Lightfield (Lytro, Raytrix). Ils ont d'abord été utilisés comme périphériques d'entrée pour des consoles de jeux. Grâce à des algorithmes de capture du mouvement humain 3D, ils permettent des interactions entre utilisateurs et consoles.

Récemment, la communauté de la vision par ordinateur a découvert que la technologie d'estimation de profondeur de Kinect pouvait être étendue bien au-delà des jeux et à un coût bien inférieur à celui des caméras 3D traditionnels, tels que des dispositifs de stéréo-vision et les caméras Time-Of-Flight . En outre, le caractère complémentaire de la profondeur et de l'information visuelle (RGB) fournies par ces dispositifs offre de nouvelles solutions potentielles aux problèmes classiques de la vision par ordinateur.

Lors de cette journée conjointe aux axes 2 et 3 (AS ASCOFED), nous passerons en revue les développements récents issus de l'analyse conjointe des images RGB-depth portant sur :

L'objectif de cette journée est de mettre en évidence les avantages offerts par ces dispositifs par rapport aux caméras conventionnelles dans le cadre d'applications, telles que la robotique mobile, la vidéo-surveillance, la biométrie…

Cette réunion est organisée par frederic.devernay@inria.fr et ludovic.macaire@univ-lille1.fr

L'inscription à cette réunion est obligatoire. Attention, la salle V106 de l'Ecole des Mines Paris-Tech ne peut accueillir que 64 participants.

Programme

9h45-10h

Présentation de la journée

10h00-10h45

Model-based clustering using color and depth information

Abul Hasnat , Olivier Alata, Alain Trémeau (Laboratoire Hubert Curien Université Saint Etienne)

10h45-11h30

Détection et suivi d'abeilles en 3D

Guillaume Chiron (Laboratoire L3I Université La Rochelle)

11h30-12h15

Attentive computational model for robot with RGB-D camera

Vincent Courboulay (Laboratoire L3i-Université de La Rochelle)

12h15-13h45

 

Pause déjeuner

13h45-14h30

Rendu de routes et perception se?mantique de marquages au sol a? partir de donne?es laser 4D

Robin Roussel, Daniela Craciun, Jean-Emmanuel Deschaud, Franc?ois Goulette (Ecole des Mines de Paris Centre de Robotique –CAOR)

14h30-15h15

3D reconstruction of indoor scenes using a single RGB-D image

Panagiotis-Alexandros Bokaris, Damien Muselet et Alain Tremeau (Laboratoire Hubert Curien, Université Jean Monnet, Saint-Etienne)

15h15-16h

Reconnaissance de pose et de gestes par des approches de type deep learning

Mingyuan Jiu, Natalia Neverova, Christian Wolf, Atilla Baskurt (LIRIS, INSA-Lyon), Graham W. Taylor (University of Guelph, Canada)

16h15-17h

Transformation rigide entre une caméra couleur et une caméra de profondeur

Jean-Clément Devaux (Laboratoire IBISC, Université Evry)

17h-17h45

Segmentation d’un orateur sur vidéo RGB-depth

Arnaud Boucher (Laboratoire LIPAD, Université Paris-Descartes)

17h45-18h

Conclusion et Perspectives

 

Résumés des contributions

9h45-10h

Présentation de la journée

10h00-10h45

Model-based clustering using color and depth information

Abul Hasnat , Olivier Alata, Alain Trémeau (Laboratoire Hubert Curien Université Saint Etienne)

olivier.alata@univ-st-etienne.fr

Je commencerai par présenter les travaux que nous avons réalisés dans le cadre de la thèse d'Abul Hasnat sur les statistiques directionnelles (lois de mélange de distributions de Von Mises-Fisher et lois de mélange de distributions de Watson). Cette partie permettra d'introduire les outils théoriques utilisés comme la divergence de Bregman et les critères d'information pour la sélection du nombre de composantes d'une loi de mélange. Des résultats de classification non-supervisée des normales aux surfaces issues des images de profondeurs seront fournis. Puis, il sera proposé l'extension de cette méthode à la classification non-supervisée de données RGB-D exploitant conjointement la couleur et les normales aux surfaces.

 

10h45-11h30

Détection et suivi d'abeilles en 3D

Guillaume Chiron (Laboratoire L3I Université La Rochelle)

guillaume.chiron@univ-lr.fr

Cette présentation s'appuie sur les travaux effectués dans le cadre de la thèse de Guillaume Chiron, mettant en œuvre une chaîne d'analyse d'images : acquisition vidéo, calcul des trajectoires et analyse comportementale, dans un contexte applicatif d'étude de l'affaiblissement des colonies d'abeilles.
Partie 1: Suivi multi-cibles
En réponse aux besoins récents des biologistes, nous posons les bases d'un système de vidéo-surveillance d'abeilles à l'entrée de la ruche. Contrairement aux approches existantes de suivi d'insectes, nous proposons de nous attaquer au problème dans l'espace à trois dimensions grâce à l'utilisation d'une caméra stéréo-vision haute fréquence. Le suivi d'abeilles en 3D soulève des difficultés en raison de leur nombre important, de leur petite taille, et de leurs mouvements rapides et chaotiques. Dans la cadre de notre chaîne de traitement, nous proposons de détailler la solution proposée sur les trois points suivants : le système d'acquisition, la segmentation et le mécanisme de suivi multi-cibles.
Partie 2: Analyse comportementale
Nous proposons une approche Bayésienne non-paramétrique pour la découverte, à partir d'un ensemble structuré de trajectoires, de comportements émergents au sein d'une colonie d'insectes. L'analyse exploratoire des trajectoires issues de la scène encombrée s'effectue par classification non supervisée, simultanément sur des niveaux sémantiques différents, et où le nombre de clusters pour chaque niveau n'est pas défini a priori mais est estimé à partir des données. L'approche Bayésienne non paramétrique s'appuie sur des processus de Dirichlet à mélange, et conduit à la construction d'une hiérarchie sémantique. Nous validons notre approche à l'aide d'une pseudo-vérité terrain générée par un Système Multi-Agents.
 

 

11h30-12h15

Attentive computational model for robot with RGB-D camera

Vincent Courboulay (Laboratoire L3i-Université de La Rochelle)

vincent.courboulay@univ-lr.fr

Robots are our future. But to be realistic, they have to develop competences and abilities to interact with us. This paper introduces attentive computational model for robot. Actually, attention is the first step to interaction. We propose to enhance and implement an existing real time computational model. We classically use intensity, color and orientation but we add information related to depth and isolation. We have built a robotic system based on lego mindstorm and Kinect, that is abble to take a picture of the most interesting part of the scene.

 

12h15-13h45

 

Pause déjeuner

 

13h45-14h30

Rendu de routes et perception se?mantique de marquages au sol a? partir de donne?es laser 4D

Robin Roussel, Daniela Craciun, Jean-Emmanuel Deschaud, Franc?ois Goulette (Ecole des Mines de Paris Centre de Robotique –CAOR)

robin.roussel@mines-paristech.fr

Les scanners LiDAR (mobiles ou statiques) génèrent des nuages de points 3D à partir desquels il est possible d'obtenir des images de profondeur, mais également, via un procédé similaire, des images d'intensité lumineuse (réflectance).

Cette seconde information est précieuse car elle ouvre la porte à la perception de nombreux marquages et symboles présents dans la vie quotidienne. Ce travail de recherche porte plus particulièrement sur les marquages au sol peints sur les routes, dont la perception peut être utile dans des domaines comme la navigation autonome, la gestion de flux et la planification urbaine. Avant de pouvoir être exploitées, ces données ont besoin d'être corrigées car elles souffrent de plusieurs défauts dus à la technologie utilisée ou au capteur lui-même : rayons non détectés qui donnent des points de réflectance nulle dans le nuage, bruit, distorsions, etc.

Notre algorithme commence par une correction de la réflectance dans l’espace image. L'avantage de se placer dans ce dernier plutôt que de chercher à corriger directement le nuage de points 3D est double : d'une part, les algorithmes sont moins complexes car on contraint l’espace de recherche des coordonnées 3D aux coordonnées 2D d’un pixel ; d'autre part, l’espace image fournit l’information de topologie entre les points, qui dans l’espace 3D n’est pas disponible sans un traitement complémentaire assez coûteux.

Le premier objectif de ce travail est donc d'obtenir un rendu plus homogène correspondant à des mesures physiquement plus cohérentes. Le pipeline mis en place fait appel à une série de filtres classiques, modifiés ou même inédits dont les paramètres ont été déterminés empiriquement. Une fois l'image d'intensité corrigée obtenue, le nuage de points est recréé en prenant cette image comme source des valeurs d'intensité lumineuse des points. Une telle méthode pourrait être en outre appliquée aux trois canaux d'une image RGB sans plus de difficultés.

Le second objectif porte sur l’exploitation des images corrigées pour percevoir les marquages au sol, détecter ceux appartenant à des passages piétons et regrouper ceux appartenant a un même passage. L'efficacité de ces opérations dépend grandement de la qualité de l'image sur laquelle elles sont appliqueées, ce qui rend la correction préalable absolument nécessaire. Afin de réaliser la détection, une segmentation automatique des primitives rectangulaires est réalisée dans l’espace image. Un algorithme inédit de détection et de regroupement des rectangles basé sur trois critères géométriques est ensuite mis en œuvre, permettant la prise de décision suite aux détections / non-détections des passages des piétons. Enfin, on attache aux marquages individuels regroupés en passages piétons les coordonnées correspondantes dans l'espace 3D, permettant ainsi de les localiser directement par la suite.

 

14h30-15h15

3D reconstruction of indoor scenes using a single RGB-D image

Panagiotis-Alexandros Bokaris, Damien Muselet et Alain Tremeau (Laboratoire Hubert Curien, Université Jean Monnet, Saint-Etienne)

damien.muselet@univ-st-etienne.fr

Starting from a single RGB-D image, we propose a fully automatic method of 3D reconstruction of an indoor scene, where the orientations of the objects are not constrained. More precisely, the objects are represented by cuboids or sets of cuboids. The reason behind the selection of such representation is that most of the objects in a common indoor scene, such as drawers, bookshelves, tables and beds have a cuboid shape. Recently, Jiang and Xiao proposed a method which fits cuboids to the objects of a scene using a global optimization process under strong constraints. Their approach is obviously different from the one proposed here since the final goal of the latter is not fitting cuboids only to cuboid-shaped objects but the complete 3D reconstruction of the scene using cuboids. Thus, the image is segmented, as a preliminary step, and a cuboid is fitted independently to each extracted object. As it can be seen in our results, under this approach more attention is drawn to the local fitting while the global constraints are ignored.

 

15h15-16h

Reconnaissance de pose et de gestes par des approches de type deep learning

Mingyuan Jiu, Natalia Neverova, Christian Wolf, Atilla Baskurt (LIRIS, INSA-Lyon), Graham W. Taylor (University of Guelph, Canada)

christian.wolf@liris.cnrs.fr

In this talk we will deal with the estimation of human pose and human motion from depth images using deep learning.

(i) A first topic will be a generalized approach to human gesture recognition based on multiple data modalities such as depth video, articulated pose and speech. In our system, each gesture is decomposed into large-scale body motion and local subtle movements such as hand articulation. The idea of learning at multiple scales is also applied to the temporal dimension, such that a gesture is considered as a set of characteristic motion impulses, or dynamic poses. Each modality is first processed separately in short spatio-temporal blocks, where discriminative data-specific features are either manually extracted or learned. A Recurrent Neural Network models large-scale temporal dependencies, fuses data and performs final gesture classification.

(ii) A second topic will be human pose estimation from depth images using spatially constrained deep learning. In particular, we perform a segmentation of the body into parts. Integrating spatial layout into segmentation classically requires the minimization of complex energy functions, which is prohibitive in most real world applications. We propose a new method to integrate spatial layout into parts classification without costly pairwise terms during testing. Spatial relationships are exploited in the training algorithm, but not during testing. As with competing methods, the proposed method classifies pixels independently, which makes real-time processing possible.

 

16h15-17h

Transformation rigide entre une caméra couleur et une caméra de profondeur

Jean-Clément Devaux (Laboratoire IBISC, Université Evry)

jean-clement.devaux@ibisc.univ-evry.fr

Les caméras à bas coût de type Kinect ou équivalent (caméras 3D) sont très utilisées en robotique aussi bien pour de l'évitement d'obstacles que pour de la localisation ou de la cartographie. En tant que capteur à bas coût, les caméras 3D présentent des défauts qu'il faut pouvoir traiter en les complétant par d'autres capteurs comme des caméras conventionnelles, des télémètres laser, US ou IR, ... Pour ce faire, il faut exprimer toutes les données de chaque capteur dans un même référentiel, ce qui est trivial si la transformation rigide entre les capteurs est connue. Dans cette présentation, nous proposons une nouvelle méthode pour calculer cette transformation rigide entre une caméra couleur et une caméra de profondeur et nous montrons que cette méthode présente une précision similaire aux méthodes traditionnelles de la littérature alors même qu'elle est automatique (l'utilisateur n'intervient pas dans le processus) et qu'elle ne nécessite pas de motif de calibration particulier (calibration sur scène naturelle).

 

17h-17h45

Segmentation d’un orateur sur vidéo RGB-depth

Arnaud Boucher (Laboratoire LIPAD, Université Paris-Descartes)

arnaud_boucher@msn.com

La problématique spécifique traitée dans cette présentation est la segmentation d’un orateur. Dans le cadre de télé-présentation, l’orateur pourra ainsi Être filmé et ajouter en surimpression des documents qu’il commente, comme le ferait un présentateur de bulletin météorologique avec des cartes de prévisions. Les caméras RGB-depth sont plus accessibles que des caméras type Tof (Time on fly) utilisées dans la robotique, mais fournissent des données beaucoup moins précises. Les imprécisions de ces deux capteurs ne permettent pas une cartographie précise, ni une utilisation directe des données pour obtenir une segmentation. Il faut combiner intelligemment les informations extraites, afin qu’un capteur pallie les défauts de l’autre.
La segmentation proposée est initialisée par le lissage de « l’objet » détecté au premier plan, à l’aide de la carte de profondeur, en y appliquant des morphologies mathématiques. La précision de la carte de profondeur étant faible, plus d’information est nécessaire pour obtenir un résultat fin et robuste. Ce contour grossier est ensuite affiné localement en utilisant les couleurs. Cette étape est traitée comme une classification locale utilisant un apprentissage en direct des régions constituant le voisinage direct du contour. Cet apprentissage a pour but de caractériser deux classes : l’intérieur et l’extérieur d’un « objet ». Une des difficultés est de déterminer quel degré de confiance accorder localement à un type de données. Un orateur et le fond de l’image peuvent localement être très proches, que ce soit au niveau des couleurs comme au niveau de la profondeur. L’ensemble des méthodes élaborées opère en temps réel sur 25 images par seconde.

17h45-18h

Conclusion et Perspectives

 

Date : 2014-02-06

Lieu : Salle V106
Ecole des Mines ParisTech
60 bd. Saint-Michel, Paris 6ème
Métro : RER B Luxembourg


Thèmes scientifiques :
B - Image et Vision

Inscriptions closes à cette réunion.

Accéder au compte-rendu de cette réunion.

(c) GdR IASIS - CNRS - 2024.