Vous êtes ici : Réunions » Réunion

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Vision et modélisation 3D d'environnements dynamiques

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

34 personnes membres du GdR ISIS, et 35 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 100 personnes.

Annonce

Titre

Vision et modélisation 3D d'environnements dynamiques

Thème B Image et Vision - Axe Vision, géométrie 3D, mouvement

Date : 06/06/2016

Lieu : Paris - Télécom ParisTech (Amphi Estaunié)

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Organisateurs

Description

Cette réunion fait suite à la réunion conjointe du GdR ISIS et du GdR Robotique du 31 Mai sur l'Analyse des données RGB-Depth pour la robotique.

Les techniques de reconstruction 3D ont atteint une maturité qui leur permet d'obtenir des résultats précis et robustes dans plusieurs scénarios. Un exemple d'approche effective est le « structure-from-motion » qui, couplé au « multi-view stereo », permet de reconstruire des modèles denses à partir d'images monoculaires, sous l'hypothèse que la scène observée soit statique. L'évolution des capteurs et des méthodes ces dernières années a donné lieu à de nombreux résultats significatifs en réalité augmentée, imagerie médicale, robotique et applications mobiles.

Néanmoins, il existe toujours une problématique liée à la dynamique de la scène reconstruite. Cette dynamique se situe à plusieurs niveaux donnant chacun des problématiques différentes qui restent encore à explorer, notamment :

Ces tâches, qui ont reçu une attention intense ces dernières années, restent considérées parmi les problèmes de perception les plus complexes. Elles requièrent une capacité de traitement importante avec des contraintes temporelles sévères pour certaines d'entre elles, ainsi qu'une nécessité de stockage volumineux lorsque l'on souhaite couvrir des espaces de grandes dimensions.

Durant cette journée, il sera possible de couvrir à la fois des travaux de recherche théoriques et applicatifs. L'objectif de la journée est d'explorer les problématiques liées à la reconstruction 3D intégrant de l'information dynamique.

Un des buts de cette journée est aussi de promouvoir des coopérations méthodologiques entre équipes de recherche au niveau national et européen.

Les interventions de la journée seront faites par des chercheurs seniors et juniors et composées d'interventions invitées et d'interventions ouvertes aux chercheurs intéressés.

Programme

9H15 - 9H30 Accueil et présentation de la journée

9H30 - 10H00 Edmond Boyer (Equipe MORPHEE LJK, INRIA Grenoble Rhône-Alpes)

Suivi 3D de formes

10H00 - 10H20 Ludovic Blache (CReSTIC, Université de Reims Champagne-Ardenne)

Représentation dynamique de modèles d'acteurs issus de reconstructions multi- vues

10H20 - 10H40 Bogdan Khomutenko, Gaëtan Garcia, Philippe Martinet (IRCCYN UMR CNRS 6597, Nantes)

Enhanced Unified Camera Model

10H40 - 10H50 Pause

10H50 - 11H20 Nicolas Padoy (ICube, UMR CNRS 7357, Université de Strasbourg)

Articulated Clinician Detection Using 3D Pictorial Structures on RGB-D Data

11H20 - 11H40 Chaohui Wang (Laboratoire d'Informatique Gaspard Monge, UMR CNRS 8049, Université Paris-Est)

Distributed modeling with graphical models and its application in indoor scene understanding from a single RGB-D Image

11H40 - 12H00 Egor Sattarov, Sergio Rodriguez, Roger Reynaud, Alexander Gepperth (Laboratoire SATIE UMR CNRS 8029)

Context-based vector fields for multi-object tracking in application to road traffic

12H00 - 13H30 Déjeuner libre

13H30 - 14H00 Raphaël Sznitman (Ophtalmic Technology Laboratory, Artorg Center, Université de Bern)

Geometry consistent Active Learning for biomedical image data

14H00 - 14H20 Pierre Merriaux, Xavier Savatier (IRSEEM/ESIGELEC, Saint-Etienne-Du-Rouvray)

Localisation du robot Vikings vainqueur des deux premières étapes du challenge international Argos

14H20 - 14H40 Mathias Gallardo, Toby Collins, Adrien Bartoli (ALCoV-ISIT, UMR CNRS 6284, Université d'Auvergne, Clermont Ferrand)

Using Shading and a 3D Template Jointly for Non-Smooth Deformations Reconstruction

14H40 - 14H50 Pause

14H50 - 15H20 Bruno Vallet (Laboratoire MATIS, IGN, Saint Mandé)

Cartographie mobile d'environnements dynamiques et applications.

15H20 - 15H40 Hyewon Seo (ICube, UMR CNRS 7357, Université de Strasbourg)

Feature extraction, similarity measurement, and spatial matching of deforming meshes.

15H40 - 16H00 Discussions

Résumés des contributions

Edmond Boyer - Equipe MORPHEE LJK, INRIA Grenoble Rhône-Alpes

Titre : Suivi 3D de formes

Le suivi 3D de formes consiste à déterminer le mouvement 3D d'une forme au travers d'une séquence temporelle d'observations visuelles. Il s'agit d'une étape fondamentale de la modélisation et de l'analyse de scènes dynamiques à partir d'informations visuelles. Le suivi de formes repose sur deux aspects essentiels à sa robustesse et à sa précision. En premier lieu, un modèle de mouvement est nécessaire pour representer l'évolution d'une forme, par exemple un mouvement articulé ou localement rigide. Le suivi consiste ensuite à déterminer les évolutions du modèle qui satisfont, au mieux, des associations entre le modèle et les observations. La stratégie d'association utilisée, par exemple déterministe ou probabiliste, constitue alors un deuxième aspect clé du suivi. Dans cet exposé, je discuterai ces deux points. En particulier, je présenterai les récents résultats de suivi 3D de l'équipe Morpheo avec des représentations volumiques.

Ludovic Blache - CReSTIC, Université de Reims Champagne-Ardenne

Titre : Représentation dynamique de modèles d'acteurs issus de reconstructions multi- vues

Les technologies de reconstruction multi-vues permettent de réaliser un clone virtuel d'un acteur à partir d'une simple acquisition vidéo réalisée par un ensemble de caméras à partir de multiples points de vue. Cette approche offre de nouvelles opportunités dans le domaine de la composition de scènes hybrides mélangeant les images réelles et virtuelles.

Cette thèse a été réalisée dans le cadre du projet RECOVER 3D dont l'objectif est de développer une chaîne de production TV complète, de l'acquisition jusqu'à la diffusion, autour de la reconstruction multi-vues. Cependant la technologie utilisée dans ce contexte est mal adaptée à la reconstruction de scènes dynamiques. En effet, la performance d'un acteur est reproduite sous la forme d'une séquence d'objets 3D statiques qui correspondent aux poses successives du personnage au cours de la capture vidéo. L'objectif de cette thèse est de développer une méthode pour transformer ces séquences de poses en un modèle animé unique.

Les travaux de recherches menés dans ce cadre sont répartis en deux étapes principales. La première a pour but de calculer un champ de déplacements qui décrit les mouvements de l'acteur entre deux poses consécutives. La seconde étape consiste à animer un maillage suivant les trajectoires décrites par le champ de mouvements, de manière à le déplacer vers la pose suivante. En répétant ce processus tout au long la séquence, nous parvenons ainsi à reproduire un maillage animé qui adopte les poses successives de l'acteur. Les résultats obtenus montrent que notre méthode peut générer un modèle temporellement cohérent à partir d'une séquence d'enveloppes visuelles.

Bogdan Khomutenko, Gaëtan Garcia, Philippe Martinet - IRCCYN UMR CNRS 6597

Titre : Enhanced unified camera model

An improvement of the Unified Camera Model. It has one more projection coefficient, which allows it to better approximate distortions in fisheye and wide-angle camera lenses. A calibration tool has been developed and is accessible on line (https://github.com/BKhomutenko/visgeom). A notion of projection surface was developed to analyze geometric properties of camera models. Using this notion following results have been achieved:

1. A completeness of the proposed model has been shown, that is, any projection whose projection surface is defined by a conic section can be exactly approximated with the model.

2. A closed-form inverse mapping has been found.

3. It has been shown that all straight lines are projected into conic sections.

4. The equation of epipolar curve has been found for calibrated stereo system.

5. Using this epipolar equation, a direct stereo correspondence algorithm, based on the semi-global matching, has been developed (no undistortion is needed).

Nicolas Padoy - ICube, UMR CNRS 7357, Université de Strasbourg

Titre : Articulated Clinician Detection Using 3D Pictorial Structures on RGB-D Data

In this talk, I will first present a multi-RGB-D perception system that we have set up in several operating rooms in Strasbourg. I will introduce the clinical motivation underlying its development and the need for reliable clinician pose estimation to enable many clinical applications, such as surgical workflow analysis, radiation safety monitoring and human-robot cooperation. I will then present a computer vision approach that we have developed for articulated human detection in the operating room. This approach extends the pictorial structures framework to 3D using RGB-D data by proposing a novel appearance model, 3D pairwise constraints and a method that makes exact inference tractable. I will also show how we take advantage of multiple RGB-D cameras to improve the performance. Finally, I will present qualitative and quantitative results on challenging multi-view RGB-D datasets recorded in busy operating rooms during live surgeries.

Chaohui Wang - Laboratoire d'Informatique Gaspard Monge, UMR CNRS 8049, Université Paris-Est

Titre : Distributed modeling with graphical models and its application in indoor scene understanding from a single RGB-D Image

Distributed modeling of visual perception problems is an interesting but challenging research topic in computer vision field. We have developed distributed models for several fundamental computer vision problems, such as segmentation, object tracking, 3D shape matching, 3D scene/surface inference and illumination estimation, etc.. In this talk, I will introduce our recent work on indoor scene understanding from a single RGB-D Image, where we propose a high-order graphical model for jointly reasoning about the layout, objects and superpixels in the image. In contrast to those holistic approaches, our model leverages detailed 3D geometry using inverse graphics and explicitly enforces occlusion and visibility constraints for respecting scene properties and projective geometry. We cast the task as MAP inference in a factor graph and solve it efficiently using message passing. We evaluate our method with respect to several baselines on the challenging NYUv2 indoor dataset using 21 object categories. Our experiments demonstrate that the proposed method is able to infer scenes with a large degree of clutter and occlusions.

Egor Sattarov, Sergio Rodriguez, Roger Reynaud, Alexander Gepperth - Laboratoire SATIE UMR CNRS 8029

Titre : Context-based vector fields for multi-object tracking in application to road traffic

Ce travail présente une approche permettant d'améliorer la précision du suivi multi-objet en utilisant de l'information contextuelle provenant d'un système géographique d'information. Le suivi multi-objet se base sur l'implantation Monte-Carlo du filtre PHD (Probability Hypothesis Density), et le contexte de la scène est modélisée par de cartes annotées. La contribution de ce travail est centrée dans le couplage serré de l'information du contexte et du processus de filtrage par particules. L'objectif proposé est atteint par le déploiement des particules qui représentent a priori les mouvements attendus localement, qui sont déterminés par les routes locales et les configurations des voies. Au même temps, l'approche est capable de discerner les objets dont les mouvements sont à l'opposé des ceux qui sont attendus. Ce dernier est une propriété importante pour les applications d'aide à la conduite.

Raphaël Sznitman - Ophtalmic Technology Laboratory, Artorg Center, Université de Bern

Titre : Geometry consistent Active Learning for biomedical image data

Modern machine learning strategies for training object detection and segmentation models thrive on large annotated datasets. While such datasets are abundant in many natural image settings, they still remain uncommon in most biomedical applications. In this sense, Active Learning (AL), the process of adaptively querying a human for labels of selected samples, is well suited for many biomedical cases, as the number of expert labelers is often limited and the amount of data to label is only increasing.

In this context, we will show in this talk a new AL approach for building image segmentation models with limited amounts of training data. Unlike most generic AL strategies from the Machine Learning community, our approach explicitly leverages the image data geometry in order to more appropriately sample unlabeled points for querying. In addition, we show how effective batch-mode sample selection achieved by optimizing regions to query can bring important data labeling reductions. This is particularly useful in 3D volumes, where annotation is extremely challenging. We show how our approach performs on binary and multi-class segmentation tasks in Electron Microscopy and MRI volumes, as well as on natural images.

This work is in collaboration with Ksenia Konyushkova and Pascal Fua.

Pierre Merriaux, Xavier Savatier - IRSEEM/ESIGELEC, Saint-Etienne-Du-Rouvray, 76801

Titre : Localisation du robot Vikings vainqueur des deux premières étapes du challenge international Argos

Le challenge Argos consiste à développer des robots d'inspection autonomes dans les usines pétrochimiques. En plus des nombreux défis d'ingénierie inhérents à la mise au point d'un tel robot, le projet a fait émerger plusieurs problèmes scientifiques assez peu étudiés dans la littérature. Les unités de production d'une raffinerie s'étendent sur de multiples niveaux, les installations y sont essentiellement constituées de nombreux tuyaux, cuves, pompes, chaudières. Cet environnement complexe ne peut pas être qualifié d'extérieur ou d'intérieur au sens où on l'entend habituellement dans la littérature. La brique de localisation du robot a ainsi exigé la mise au point d'une méthode spécifique afin de garantir en temps réel un haut niveau de précision et de robustesse. Il faut souligner que la localisation est une fonction critique du robot pour lui permettre de négocier des obstacles, monter et descendre les escaliers et se positionner précisément afin d'effectuer des mesures sur les installations.

Lors de cet exposé, nous présenterons la brique de localisation du robot Viking basée sur un lidar multi-nappes et l'implémentation d'un champ de vraisemblance 3D. Un accent particulier sera mis sur les contraintes liées au côté embarquable de la méthode, c'est-à-dire à la consommation en terme de mémoire et de ressources CPU. Intimement liée à la localisation, la détection d'obstacles sera également abordée.

Mathias Gallardo, Toby Collins, Adrien Bartoli - ALCoV-ISIT, UMR CNRS 6284, Université d'Auvergne, Clermont Ferrand

Titre : Using Shading and a 3D Template Jointly for Non-Smooth Deformations Reconstruction

Shape-from-Template (SfT) registers and reconstructs the 3D shape of deformable surfaces from a single image and a textured 3D model of the surface in a rest position. SfT uses the apparent motion as primary visual cue. Most existing SfT methods do not reconstruct poorly-textured surfaces and non- smooth deformations such as creases. This is because they require dense apparent motion information, which is missing in textureless regions, and use strong bending penalizers or project the deformation to a learnt subspace. To address these two shortcomings, we propose to combine shading and motion in an integrated solution with an adaptive deformation prior which facilitates piecewise-smooth reconstruction. Some previous works use shading, but they assume smooth deformations, require a priori photometric calibration and separate the use of shading and motion. In this talk, we show through quantitative and qualitative results how a bending energy prior based on an M-estimator and the joint use of shading and motion constraints allow us to reconstruct poorly-textured surfaces under non-smooth deformations and to perform an auto-photometric calibration.

Bruno Vallet - Laboratoire MATIS, IGN, Saint Mandé

Titre : Cartographie mobile d'environnements dynamiques et applications.

La cartographie mobile consiste à embarquer des capteurs image et/ou laser sur un véhicule disposant d'un système de géopositionnement afin d'acquérir une information géolocalisée sur l'environnement des routes, en particulier en zones urbaines. Ces données peuvent ensuite être exploitées pour produire une cartographie 3D très fine des zones couvertes, et en particulier de reconstruire leur géométrie 3D et d'en extraire une information sémantique. Dans ce processus, la composante dynamique de ces scènes doit être prise en compte à toutes les échelles, du dixième de seconde pour le suivi d'objets mobiles jusqu'aux années pour les changements structurels de l'environnement urbain. Cette présentation commencera par présenter une méthode très générale de détection de changement entre scans laser permettant d'en extraire leur composante dynamique, et détaillera ensuite trois applications basées sur cette détection:

-Suivi de personnes dans l'espace public

-Etude de l'occupation de l'offre de stationnement

-Visualisation immersive d'une simulation de trafic

Hyewon Seo - ICube, UMR CNRS 7357, Université de Strasbourg

Titre : Feature extraction, similarity measurement, and spatial matching of deforming meshes.

With the recent advancement of data acquisition techniques, time-varying surface data is becoming a new challenging subject for various shape analysis techniques. In this talk, we present our work on spatio-temporal feature extraction of, motion-based similarity measurement and spatial matching among, deforming meshes. Commonly used in all of these is a local descriptor called local deformation characteristics, which we define for each point at each frame based on the local strain and curvature computation. In our spatio-temporal feature extraction work, we construct multi-resolution space-time Gaussians and difference of-Gaussian (DoG) pyramids on the deformation characteristics representing the input animated mesh, where each level contains 3D smoothed and subsampled representation of the previous level. Then, we estimate locations and scales of spatio- temporal feature points by using a scale-normalized differential operator. The second part of the talk will focus on how we adopt an evolving graph to represent the spatio-temporal segmentation and sequence alignment method in order to measure the similarity of two graphical objects based on their motion. In the last part of spatial matching among deforming meshes, we present a new surface matching technique deforming meshes so as to place parts with similar deformation behaviors in correspondence. A number of dynamic feature descriptors have been developed on the dynamic features. A graph-based discreet optimization has been formulated, which considers both the similarity of descriptors between matching pairs and the compatibility among matchings.

Date : 2016-06-06

Lieu : Paris - Télécom ParisTech


Thèmes scientifiques :
B - Image et Vision

Inscriptions closes à cette réunion.

Accéder au compte-rendu de cette réunion.

(c) GdR IASIS - CNRS - 2024.