Vous êtes ici : Réunions » Réunion

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Analyse des données RGB-Depth pour la robotique

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

31 personnes membres du GdR ISIS, et 19 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 60 personnes.

Annonce

Voici les thèmes principaux abordés lors de cette réunion commune aux GdRs ISIS et Robotique :

Cette réunion qui émarge sur les GdRs ISIS et Robotique est co-organisée par olivier.lezoray@unicaen.fr, ludovic.macaire@univ-lille1.fr (pour ISIS) et Patrick.Rives@inria.fr (pour Robotique).

L'inscription à cette réunion est obligatoire sur le site du GdR ISIS.

Cette journée sera suivie d'une journée sur l'analyse de scènes complexes intitulée "Vision et modélisation 3D d'environnements dynamiques" le 6 juin.

Programme

Résumés des contributions

Calibration précise et robuste de caméras RGB-D basée sur les objets sphériques

Fabio MORBIDI, MC Université de Picardie Jules Verne, Laboratoire MIS, Amiens.

Les caméras RGB-D sont devenues récemment très populaires en robotique et en vision par ordinateur, par exemple pour la navigation de robots, la cartographie, la reconnaissance gestuelle ou encore la réalité augmentée. La calibration des caméras RGB-D est indispensable pour accroître leur précision, d'autant que les paramètres de calibration du fabricant peuvent varier d'un modèle à l'autre. Dans cet exposé, je présenterai une nouvelle méthode de calibration pour les caméras RGB-D qui permet d'estimer l'ensemble des paramètres intrinsèques et extrinsèques. La méthode est simple à utiliser car elle nécessite seulement que un objet sphérique (par exemple un ballon de basket) soit déplacé pendant quelques secondes devant la caméra. De plus, elle fonctionne pour tout arrangement de capteur RGB et de profondeur. L'algorithme proposé s'appuie sur des nouveaux résultats concernant la projection multi-vue de sphères, qui permettent d'estimer avec précision les paramètres d'une caméra RGB-D. L?efficacité de notre méthode par rapport aux approches existantes, est montrée pour la calibration du Kinect et d'un système issu de la combinaison entre une webcam et une caméra temps de vol SwissRanger. Une boîte à outils Matlab qui met en oeuvre notre méthode, appelée «RGB-D Calibration Toolbox», a été développée et est disponible gratuitement sur Internet.

Références :
«Practical and accurate calibration of RGB-D cameras using spheres», A.N. Staranowicz, G.R. Brown, F. Morbidi, G.L. Mariottini, Computer Vision and Image Understanding, vol. 137, pp. 102-114, août 2015.
«Easy-to-use, general, and accurate multi-Kinect calibration and its application to gait monitoring for fall prediction», A.N. Staranowicz, C. Ray, G.L. Mariottini, in Proc. 37th IEEE International Conference of Engineering in Medicine and Biology Society, pp. 4994-4998, août 2015.

Evaluation et calibration d?une caméra RGB-D (Kinect v2) pour la modélisation 3D d'objets à courte portée

Elise Lachat, Doctorante INSA - ICUBE - Strasbourg.

La numérisation tridimensionnelle de la géométrie d'objets ou de scènes tend à devenir une étape courante dans le processus de documentation et d'analyse du patrimoine bâti. Ces informations peuvent être exploitables aussi bien pour la restauration, la conservation ou la reconstruction numérique de ces objets. Dans le cas de scènes de grande ampleur, c'est essentiellement le scanner laser terrestre qui est retenu comme outil, du fait de sa capacité à acquérir une grande quantité de données 3D précises en un temps limité. Cependant, le coût élevé de tels appareils peut s'avérer inapproprié pour des levers de plus petite ampleur. Ainsi, les caméras RGB-D déjà largement utilisées par la communauté robotique sont mises à l'essai dans certains travaux de recherche concernant la numérisation 3D. En effet, leur coût souvent peu élevé et leur portabilité forment des arguments solides pour leur utilisation dans ce domaine, à condition que la qualité des données produites réponde à l'attente fixée.

Dans ce contexte, la seconde version du célèbre capteur Kinect de Microsoft a été testée en vue de modéliser en trois dimensions des objets acquis à courte portée. L'idée est d'observer quelques aspects liés à l'utilisation de ce capteur dans un objectif de modélisation. Naturellement, la qualité des données ainsi produites a formé un volet important de l'étude. En amont, une série de tests ont permis d'évaluer quelques sources d'erreurs qui affectent la mesure du capteur. Une méthode de calibration adaptée à l'outil a également été mise en place. Enfin, ce sont les protocoles d'acquisition des données qui ont été discutés, mettant en avant les avantages et inconvénients liés à l'utilisation de ce type de capteur à des fins de modélisation précise.

Object Classification in Indoor RGB-D Scenes using Projective Light Diffusion Image Expansion

Panagiotis Papadakis, Post-Doc ENSTA ParisTech, Equipe COGROB/INRIA FLOWERS team.

In this talk, i will present our latest work for effective, real-time detection and classification of 3D objects by a mobile robot from RGB-D sequences. To alleviate computational workload, multidimensional information is firstly fused by exploiting local photometric/geometric correlation and employing domain transform filtering, in order to recover 3D surface orientation resulting from a projective light diffusion process. Object candidates are segmented from the background based on data-driven constraints on point density and visibility and are finally encoded into a highly discriminative and concise wavelet-based descriptor which allows very fast object queries. Experiments in realistic conditions with an indoor mobile robot demonstrate highly favorable classification performance for most object classes, in the absence of feature learning and a superior performance compared to state-of-the-art methods.

Road Detection from RGB-D Image Analysis

Vincent Frémont, MC HEUDIASYC UTC.

Road detection is a crucial task in autonomous navigation systems. It is responsible for delimiting the road area and hence the free and valid space for maneuvers. In this talk, we will present some recent advances in this area based on RGB-D image analysis. In a first part, a road segmentation algorithm based on the joint analysis of the V-disparity map and the Illuminant Invariant Intrinsic image will be described. Then, in a second part, we will present recent results based on the use of ?contextual color blocks? as an efficient way of providing contextual information to a classifier trained to distinguish road and non-road regions based on hand-labeled images. Finally, we will present a road pixel-wise classification approach based on a convolutional neural network architecture where the proposed model takes advantage of a large contextual window while maintaining a fast inference using a Network-in-Network architecture and by converting the model into a fully convolutional network after training.

Capteurs RGB-D et représentation générique pour la navigation des véhicules autonomes

Patrick Rives, DR INRIA Sophia Antipolis.

Nous présentons une nouvelle représentation hybride métrique/topologique/sémantique appelée MTS-Maps conçue pour la conduite automatique de véhicules autonomes dans des environnements de grande taille d'intérieur ou d'extérieur. Basée sur une représentation générique, la sphère RGB-DL, elle permet de s'affranchir de la technologie du capteur utilisé. Ces différentes couches permettent de traiter le problème de localisation allant de la requête contextuelle jusqu'au calcul de l'erreur de pose utilisée dans le la tâche de navigation autonome. Nous présenterons des résultats d'expérimentation de conduite automatique en environnement urbain et dans des environnements d'intérieur.

Désocclusion d'images basée patchs pour la synthèse de vues virtuelles

Pierre Buyssens, Post-Doc Normandie Univ., UNICAEN, GREYC, CNRS, Caen.

Nous proposons une approche d'inpainting basée sur les patches et la profondeur pour la désocclusion des trous qui apparaissent lors de la synthèse de vues virtuelles de scènes RGB-D. L'information de profondeur est ajoutée à chaque étape clé de l'algorithme classique d'inpainting basé sur les patches (précédemment proposé par Crimini et al.) afin de guider la synthèse des structures et des textures manquantes. Ces contributions aboutissent à un algorithme efficace en comparaison des approches de l'état de l'art (à la fois en terme de qualité visuelle et calculatoire), tout en ne requérant qu'un seul paramètre additionnel (facile à ajuster).

Unsupervised RGB-D Scene Analysis using Joint Clustering and Region Merging

Abul Hasnat, Post-Doc Ecole Centrale de Lyon.

Recent advances in imaging sensors, such as Microsoft Kinect, provide access to the synchronized depth with color image, called RGB-D image. Numerous researches have already shown that the use of depth as an additional feature improves the accuracy of scene segmentation. However, it remains an important issue - what is the best way to fuse color and geometry in an unsupervised manner? In this talk, I will focus on this issue and present a method for indoor RGB-D scene analysis.

The proposed method is developed based on the assumption of a statistical RGB-D image generation model. In order to solve the scene-labeling problem, it combines a clustering method with a region merging method. First, it identifies the possible image regions using a heterogeneous data clustering method, called Joint Color-Spatial-Directional clustering . Next, it merges regions based on the statistical knowledge extracted from the planar geometry of the scene. This method was evaluated on a widely used RGB-D image dataset and compared with the state-of-the-art. Results show that, it is very competitive and it needs less computation time. Moreover, it opens interesting perspectives to fuse color, geometry and additional features in an unsupervised manner.

References:
[1] Md Abul Hasnat, Olivier Alata, Alain Trémeau, "Joint Color-Spatial-Directional clustering and Region Merging (JCSD-RM) for unsupervised RGB-D image segmentation", In Trans. on Pattern Analysis and Machine Intelligence (TPAMI), 2015.
[2] Md Abul Hasnat, Olivier Alata, Alain Trémeau, "RGB-D image segmentation using joint clustering and region merging", In Proc. of the British Machine Vision Conf. (BMVC), September 2014.

Analyse de trajectoires sur une variété Grassmannienne pour la détection d'émotions dans des vidéos de profondeur

Boulbaba Ben Amor, MC Mines-Telecom Lille-CRIStAL.

Dans ce travail nous présentons une nouvelle approche pour la détection des émotions humaines à partir de flux d'images de profondeur. Notre analyse consiste à découper la vidéo en sous-séquences chacune représentée par un sous-espace linéaire, élément d'une variété de Grassmann. Il en résulte une trajectoire (courbe) sur cette variété qui représente la vidéo à analyser. Les outils géométriques définis sur ce type de variété permettent de calculer une signature de l'évolution dans le temps de la dynamique de la personne filmée par la caméra. Cette signature est présentée au fur-et-à-mesure à un détecteur précoce d?événements, appelé SOSVM (Structured Output SVM), pour une analyse séquentielle de la vidéo. Les résultats obtenus sur la base Kinect publique Cam3D montrent l'intérêt de l'approche proposée pour l'analyse d'émotions spontanées filmées avec une caméra type Kinect. Nos résultats montrent aussi que l'analyse des mouvements du corps est plus pertinente que l'analyse du visage seul dans le contexte des vidéos de profondeur.

Understanding Everyday Hands in Action From a Wearable RGB-D Sensor

Gregory Rogez, Research Scientist INRIA Grenoble - Marie Curie Fellow.

We tackle the problem of analyzing functional manipulations of handheld objects from a chest-mounted camera. For this problem specification, I will show that RGB-D sensors are particularly informative for extracting near-field interactions of the camera wearer with his/her environment. Despite the recent advances in full-body pose estimation using Kinect-like sensors, reliable monocular hand pose estimation in RGB-D images is still an unsolved problem, especially when the hands interact with objects. The problem is exacerbated when considering a wearable sensor and a first-person camera viewpoint: the occlusions inherent to the particular camera view make the problem even more difficult. We propose an efficient pipeline which 1) generates synthetic exemplars for training using a virtual chest-mounted camera, 2) exploits the depth features for a fast detection and a coarse pose estimation of the hands and 3) performs fine-grained grasp classification exploiting depth and RGB data, and making use of state-of-the-art deep features. I will provide an insightful analysis of the performance of our algorithm on a new dataset of 12000 RGB-D images covering 71 everyday grasps in natural interactions, illustrating the role of segmentation, object context, and 3D-understanding in functional grasp analysis.

[1] Grégory Rogez, James S. Supancic, Deva Ramanan, "First-Person Pose Recognition using Egocentric Workspaces", In Proc. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2015.
[2] Grégory Rogez, James S. Supancic, Deva Ramanan , "Understanding Everyday Hands in Action from RGB-D Images", In Proc. IEEE International Conference on Computer Vision (ICCV), December 2015.

A RGB-D and audio data fusion method for indoor navigation of a mobile robot in dynamic environment

Quentin Labourey, Doctorant au LIG (Laboratoire d'Informatique de Grenoble) et GIPSA (Grenoble Image Parole Signal Automatique).

This presentation deals with an audiovisual perception scheme of a robot in indoor environment (apartment, house...). In order to do that, an adapted representation of the world including human detection is required. We consider the case of small robot equipped with a kinect-like device. Thus, the robot has access to RGB, depth and audio data. The goal is to extract information from those modalities and fuse them to build a grid containing relevant information. Evidential grids, based on belief theory, enable the robot to handle partial information and ignorance, which can be useful in various situations. As the robot moves, it must take into account its environment and the humans in presence, as well as the possibility of faulty sensor information. The talk will present the key-stages of proposed the multimodal fusion: an evidential grid is built from each modality using a modified Dempster combination, and a temporal fusion is made using an evidential filter based on an adapted version of the generalized bayesian theorem. This enables the robot to keep track of the state of its environment. A decision can then be made on the next move of the robot depending on the robot?s mission and the extracted information.

Date : 2016-05-31

Lieu : Amphi Émeraude - Telecom ParisTech


Thèmes scientifiques :
B - Image et Vision

Inscriptions closes à cette réunion.

Accéder au compte-rendu de cette réunion.

(c) GdR IASIS - CNRS - 2024.