Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions closes à cette réunion.
20 personnes membres du GdR ISIS, et 25 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 60 personnes.
La vision par ordinateur a pour but de doter les machines d'une capacité de vision similaire à celle des êtres humains. Aussi, dans ses tâches parmi les plus fondamentales, figurent des problèmes comme la classification, la détection d'objets, leur segmentation et suivi spatio-temporel dans les images et séquences vidéo. Leur résolution a des applications indénombrables, allant de la robotique, conduite autonome, jusqu'aux interactions homme-machine. Ces dernières années, le paradigme du deep learning a permis des progrès gigantesques sur ces problèmes. Néanmoins, de nombreux challenges sont encore à surmonter, notamment des difficultés liées aux raretés de données annotées au niveau d'objets utilisables pour l'apprentissage.
Cette journée propose de faire un état des lieux sur les travaux en cours sur ces problèmes fondamentaux et appelle à des contributions sur les thèmes (non exhaustifs) suivants :
La journée aura lieu le 4 Juin 2019, dans l'amphi Aimé Laussédat au Cnam (Accès 2, rue de Condé, 75003 Paris)
Les personnes souhaitant présenter leurs travaux sont invitées à faire part de leur intention aux organisateurs avant le 25 Mai 2019, en déposant un titre et un résumé de votre présentation avec une courte description des auteurs dans le dossier ici :
https://drive.google.com/drive/folders/1kZ-3vctcQMIiYN_9Sbi2DL0w0G5hWKZd?usp=sharing.
Hiba Alqasir ; Damien Muselet ; Christophe Ducottet
Pierre Biasutti, LaBRI, Bordeaux; Aurélie Bugeau, LaBRI, Bordeaux ; Jean-François Aujol, IMB, Bordeaux ; Mathieu Brédif, IGN, Saint-Mandé
Rachel Blin ; Samia Ainouz ; Stéphane Canu ; Fabrice Meriaudeau
Georg Pichler (PostDoc, CentraleSupélec, georg.pichler@l2s.centralesupelec.fr) ; Jose Dolz (Professor, ÉTS Montreal, Canada) ; Ismail Ben Ayed (Professor, ÉTS Montreal, Canada) ; Pablo Piantanida (Professor, CentraleSupélec and Mila, Montreal, Canada)
Djallel Belhadja ; Danielle Nuzillard ; Valeriu Vrabie ; Madjid Haddadb
Benjamin Deguerre, Doctorant au LITIS, effectuant une thèse CIFRE avec ACTEMIUM SDEL INFI ; Clément Chatelain, Maître de conférence, LITIS & INSA Rouen Normandie ; Gilles Gasso, Professeur des Universités, LITIS & INSA Rouen Normandie
Rodrigo Caye Daudt - PhD student at ONERA (DTIS/IVA) and Télécom ParisTech (LTCI/IMAGES) ; Bertrand Le Saux - Researcher at ONERA (DTIS/IVA) ; Alexandre Boulch - Researcher at ONERA (DTIS/IVA) ; Yann Gousseau - Professor at Télécom ParisTech (LTCI/IMAGES)
Quentin Barthelemy ; Sarah Bertrand
Miltiadis Poursanidis, Labri UMR 5800 ; Jenny Benois-Pineau, Labri UMR 5800 ; Akka Zemmari, Labri UMR 5800 ; Aymar de Rugy INCIA UMR 5287
Hiba Alqasir ; Damien Muselet ; Christophe Ducottet
Faster R-CNN has become a standard model in deep-learning based object detection. However, in many cases, few annotations are available in images of the application domain referred as the target domain whereas there are available for closely related public or synthetic datasets refers as source domains. Thus, a domain adaptation is needed to be able to train a model performing well in the target domain with few or no annotations in the target domain. In this work, we address this domain adaptation problem in the context of object detection in the case were no annotations are available in the target domain. Our contributions are (i) a new theoretical analysis of domain shift problem in object detection (ii) a new domain adaptation approach for faster R-CNN, (iii) experiments in two different application contexts: autonomous driving and ski-lift video surveillance.
Pierre Biasutti, LaBRI, Bordeaux; Aurélie Bugeau, LaBRI, Bordeaux ; Jean-François Aujol, IMB, Bordeaux ; Mathieu Brédif, IGN, Saint-Mandé
La segmentation sémantique de nuage de points 3D LiDAR, en particulier acquis dans l'environnement urbain, est un enjeu de taille pour beaucoup d'applications de cartographie mobile. Néanmoins, la nature de la donnée 3D -- éparse et sans lien d'un point à un autre -- ainsi que sa dimension, impliquent souvent des traitements fastidieux et gourmands en ressource. D'autre part, le problème de la segmentation sémantique sur des images 2D est bien connu de vision par ordinateur, avec des méthodes basées apprentissage profond très performantes. Nous proposons d'exploiter la structure inhérente au capteur pour dériver une image 2D à partir du nuage de points. Cette représentation bi-dimensionnelle du nuage de points LiDAR permet de tirer parti de l'état de l'art de la segmentation sémantique appliquée aux images. Dans ce sens, nous proposons d'adapter l'architecture U-Net pour la segmentation sémantique d'un nuage de points LiDAR exprimé en topologie capteur. Nous montrons que cette approche dépasse les résultats de l'état-de-l'art tout en nécessitant peu de ressources matérielles, la rendant très attractive pour des applications embarquées.
Rachel Blin ; Samia Ainouz ; Stéphane Canu ; Fabrice Meriaudeau
La détection d'objet dans les scènes routières est une étape cruciale afin de développer les systèmes d'aide à la conduite et les véhicules autonomes. Même si les réseaux de neurones profonds utilisés pour la reconnaissance d'objets ont prouvé leur efficacité en utilisant l'imagerie conventionnelle ils ne sont pas capable de détecter convenablement les objets des scènes routières lorsque les conditions d'acquisitions sont plus complexes. En revanche, l'imagerie polarimétrique, caractérisant l'onde lumineuse, décrit de façon robuste des propriétés physiques importantes de l'objet, même en cas de faible luminosité ou de fortes réflexions. Ce travail montre que l'imagerie polarimétrique surpasse l'imagerie conventionnelle en ce qui concerne la détection d'objets lorsque les conditions météorologiques sont dégradées. En effet, l'efficacité de cette méthode est due au fait que la polarimétrie permet de discriminer n'importe quel objet de par ses propriétés de réflexion et que les réseaux de neurones profonds sont efficaces pour la détection d'objets. Les résultats expérimentaux sur le jeu de données que j'ai constitué, composé d'images de scènes routières dans diverses conditions météorologiques montre que le deep learning combiné à l'imagerie polarimétrique améliore les résultats de l'état de l'art de 20 à 50% sur la détection des différents objets composants les scènes routières.
Georg Pichler (PostDoc, CentraleSupélec, georg.pichler@l2s.centralesupelec.fr) ; Jose Dolz (Professor, ÉTS Montreal, Canada) ; Ismail Ben Ayed (Professor, ÉTS Montreal, Canada) ; Pablo Piantanida (Professor, CentraleSupélec and Mila, Montreal, Canada)
Minimization of distribution matching losses is a principled approach to domain adaptation in the context of image classification. However, it is largely overlooked in adapting segmentation networks, which is currently dominated by adversarial models. We propose a class of loss functions, which encourage direct kernel density matching in the network-output space, up to some geometric transformations computed from unlabeled inputs. Rather than using an intermediate domain discriminator, our direct approach unifies distribution matching and segmentation in a single loss. Therefore, it simplifies segmentation adaptation by avoiding extra adversarial steps, while improving both the quality, stability and efficiency of training. We juxtapose our approach to state-of-the-art segmentation adaptation via adversarial training in the network-output space. In the challenging task of adapting brain segmentation across different magnetic resonance images (MRI) modalities, our approach achieves significantly better results both in terms of accuracy and stability.
Djallel Belhadja ; Danielle Nuzillard ; Valeriu Vrabie ; Madjid Haddadb
In recent years, driven by new standards and brand image, product quality has become important in the beverage industry. In the absence of reliable and affordable methods for detecting foreign bodies in semi-opaque bottles, many manufacturers still opt for human visual inspection on the production line. Advanced technological systems such as X-ray based systems started to be used but such technologies are expensive and intrusive. The visible domain offers an alternative and advantageous solution. In this work a new detection method based on kurtosis and connected component that works on static images acquired by an RGB camera is proposed. The experimental results show the effectiveness of the method in detection of random foreign objects regardless their size or transparency in different semi opaque bottles.
Benjamin Deguerre, Doctorant au LITIS, effectuant une thèse CIFRE avec ACTEMIUM SDEL INFI ; Clément Chatelain, Maître de conférence, LITIS & INSA Rouen Normandie ; Gilles Gasso, Professeur des Universités, LITIS & INSA Rouen Normandie
La détection d'objets dans des images a concentré grand nombre de recherches au cours des dernières années et, avec l'avènement du Deep Learning, des résultats impressionnants ont été atteints avec de nombreuses applications industrielles. La plupart des modèles utilisent des images RGB pour identifier et localiser des objets dans les images. Cependant, pour certaines applications, les images sont compressées afin d'optimiser leur stockage ou d'améliorer leur vitesse de transfert. Par conséquence, une décompression coûteuse en ressource (temps et puissance de calcul) est nécessaire afin d'appliquer les modèles de détection classiques. Pour pallier à ce défaut, nous proposons une architecture Deep rapide pour effectuer la détection dans les images JPEG, un des formats de compression les plus répandus. Nous entraînons un réseau de neurones pour détecter des objets et qui prend en entrée des coefficients DCT (Discrete Cosine Transform ou Transformée en Cosinus Discrète) en blocs issus de l'algorithme de compression JPEG. Pour cela nous avons adapté le Single Shot multibox Detector (SSD) en remplaçant les premières couches de convolution par une seule couche de convolution dédiée au traitement des entrées DCT. Les expérimentations sur le PASCAL VOC dataset et sur un jeu de données industriel composé d'images de caméras de surveillance du trafic routier (tunnels) montrent que le nouveau modèle est deux fois plus rapide que le SSD classique avec des résultats de détection prometteurs. A notre connaissance, ce travail est le premier à traiter la détection dans des images JPEG compressées.
Rodrigo Caye Daudt - PhD student at ONERA (DTIS/IVA) and Télécom ParisTech (LTCI/IMAGES) ; Bertrand Le Saux - Researcher at ONERA (DTIS/IVA) ; Alexandre Boulch - Researcher at ONERA (DTIS/IVA) ; Yann Gousseau - Professor at Télécom ParisTech (LTCI/IMAGES)
Large scale datasets created from user labels or openly available data have become crucial to provide training data for large scale learning algorithms. While these datasets are easier to acquire, the data are frequently noisy and unreliable, which is motivationg research on weakly supervised learning techniques. One application that suffers from the lack of large-scale, accurately labelled data is change detection with remote sensing image pairs. Change detection is traditionally modelled as a semantic co-segmentation problem where a change label is given for each georeferenced pixel based on two or more coregistered images. In this presentation we present an iterative learning method that extracts the useful information from a large scale change detection dataset generated from open vector data to train a fully convolutional network which surpasses the performance obtained by naive supervised learning. We also propose the guided anisotropic diffusion algorithm, which improves semantic segmentation results using the input images as guides to perform edge preserving filtering, and is used in conjunction with the iterative training method to improve results.
Quentin Barthelemy ; Sarah Bertrand
La segmentation de l'avant plan est une approche classique en vidéo protection lorsque le point de vue est fixe. Le principe général est de construire un modèle caractérisant les pixels appartenant à la scène dénués d'objets d'intérêt. Une fois ce modèle de fond, appelé « arrière-plan », construit, les pixels de l'image courante sont comparés au modèle de fond. Les pixels présentant des différences significatives avec le modèle de fond traduisent alors la présence d'un objet d'intérêt. L'intégration de la perspective, sous certaines hypothèses, dans le processus de décision ou de filtrage après la phase de segmentation est communément répandue. Dans cette présentation nous montrons que la prise en compte de la perspective pendant la phase de modélisation des composantes statiques de la scène permet d'améliorer significativement les performances des masques d'avant-plan. Notamment, le seuil de détection de la méthode de segmentation est désormais une fonction de la profondeur. Utilisant une base de données étiquetées manuellement, nous comparons cette nouvelle approche avec l'approche classique (seuil similaire sur toute l'image). Appliquée sur différentes méthodes de segmentation (Vibe, GMM, Vumetre), nous présentons une validation statistique de l'amélioration apportée par cette approche.
Miltiadis Poursanidis, Labri UMR 5800 ; Jenny Benois-Pineau, Labri UMR 5800 ; Akka Zemmari, Labri UMR 5800 ; Aymar de Rugy INCIA UMR 5287
Object recognition in video scenes still remains an unresolved problem even if recent Deep Learning methods have drastically boosted performances. Egocentric videos have a large application area including assistive computing for amputees wearing vision-guided prostheses. Here objects from multiple egocentric views have to be recognised on-the-fly. The recognition problem can be formulated as following. Given a taxonomy of objects and a pertained Deep NN model the goal is to locate and recognise objects of the same taxonomy in sequentially added new visual content while updating the model. We propose a fast incremental learning layer at the end of the neuronal network. Obtained results are illustrated on well-known CIFAR dataset. The proposed scheme yields similar performances as retraining but with lower computational cost. In this talk we present the initial Deep NN architecture for object recognition and explain our incremental learning approach.
Date : 2019-06-04
Lieu : Amphi Aimé Laussédat, CNAM, accès 2, rue Conté 75003 Paris
Thèmes scientifiques :
B - Image et Vision
T - Apprentissage pour l'analyse du signal et des images
Inscriptions closes à cette réunion.
Accéder au compte-rendu de cette réunion.
(c) GdR IASIS - CNRS - 2024.