Apprentissage automatique multimodal et fusion d'informations

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

148 personnes membres du GdR ISIS, et 123 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 300 personnes.

Annonce

Nos expériences du monde sont multimodales - nous voyons des objets, entendons des sons, ressentons des textures, etc. La compréhension du monde qui nous entoure doit être en mesure d'interpréter ensemble de ces signaux multimodaux. C'est un domaine pluridisciplinaire, d'importance croissante et au potentiel extraordinaire. La nature des données multimodales est diversifiée : l'image hyper-spectrale, imagerie médicale multimodale, signaux des capteurs et image, image infra-rouge et dans le spectre visible, profondeur et image optique.

Les formes de fusion : précoce, intermédiaire, tardive ont été largement explorées avec les outils d'apprentissage. Aujourd'hui un nouvel essor à ces techniques est donné par l'apprentissage profond.

Cette journée GDR-ISIS vise à montrer les progrès récents dans le domaine de la fusion des informations multimodales, notamment avec l'apprentissage automatique multimodal qui permet de créer des modèles capables de traiter et de relier des informations provenant de plusieurs modalités.

Cette journée est organisée par le thème B Image et Vision. Le programme comporte 2 conférences invitées :

Occupation du sol opérationnelle par apprentissage multi-modal en télédétection

Clément Mallet, Institut géographique national
Détection d'objet par apprentissage profond en imagerie multi-modale et multi-vues

Sébastien Lefèvre, Professeur, Université de Bretagne Sud

Organisatrices :

Su Ruan : su.ruan@univ-rouen.fr
Jenny Benois-Pineau : jenny.benois-pineau@u-bordeaux.fr

Programme

Programme : le 27/05 à 14h sur ZOOM

14h-15h Occupation du sol opérationnelle par apprentissage multi-modal en télédétection
Clément Mallet, Institut géographique national.

15h-15h20 Generative Adversarial Network for Pansharpening with Spectral and Spatial Discriminators
Anaïs GASTINEAU, IMB et IMS Bordeaux, Jean-François AUJOL, IMB Bordeaux, Yannick BERTHOUMIEU, IMS Bordeaux et Christian GERMAIN IMS Bordeaux

15h20-15h40 Fusion de Séries Temporelles Satellite Radar et Optique pour la Segmentation de Parcelle Agricole
Vivien Sainte Fare Garnot (1), Loic Landrieu (1), Nesrine Chehata (2)
(1).LASTIG, ENSG, IGN Univ Gustave Eiffel. (2). EA G&E Bordeaux INP, Université Bordeaux Montaigne

15h40-16h40 Détection d'objet par apprentissage profond en imagerie multi-modale et multi-vues
Sébastien Lefèvre, Professeur, Université de Bretagne Sud

16h40-17h00 Correlation-based fusion via deep learning for segmentation of multimodal medical images
Tongxue Zhou, Su Ruan, Stéphane Canu, Pierre Vera, LITIS, Université de Rouen Normandie

17h00-17h20 Domain Invariant Representation Learning with Multi-Modal Images
Thomas LAMPERT, Laboratoire ICube, Université de Strasbourg

Résumés des contributions

Occupation du sol opérationnelle par apprentissage multi-modal en télédétection.

Clément Mallet, Institut géographique national

La description de la surface terrestre par un ensemble donné de catégories d'occupation des sols est un besoin socle pour de nombreuses applications environnementales. Il s'agit d'un problème de classification supervisée d'images de télédétection. La complexité réside dans (1) les faible et forte variabilités inter- et intra-classes; (2) le bruit dans les images et les labels; (3) le volume et la multiplicité des images de télédétection désormais disponibles. Cette complexité-ci est exacerbée dans une problématique opérationnelle: passage à l'échelle, faible paramétrage, temps de calculs limités.

Dans cette présentation, nous évoquerons plusieurs expérimentations d'apprentissage multi-modal visant à obtenir des cartes d'occupation du sol, généralistes ou thématiques, à large échelle, en se focalisant sur chacun des 3 problèmes évoqués ci-dessus.

Détection d'objet par apprentissage profond en imagerie multi-modale et multi-vues

Sébastien Lefèvre, Professeur, Université de Bretagne Sud

La détection d'objet est un des principaux problèmes en vision par ordinateur, pour lequel les solutions à base de réseaux de neurones profonds font aujourd'hui référence, en particulier celles en une étape comme SSD, YOLO, RetinaNet ou encore EfficientDet. Dans certains cas, une scène peut est observée à partir de plusieurs capteurs, donnant lieu à l'utilisation conjointe de plusieurs modalités : optique et infrarouge pour la surveillance, couleur et profondeur pour la conduite autonome, etc. Il est alors nécessaire de fusionner ces informations au sein d'une unique architecture neuronale. Dans cet exposé, nous illustrerons cette problématique au travers de deux exemples : le couplage des modalités optique et thermique pour la détection de piétons de jour comme de nuit, et la combinaison de plusieurs vues pour la détection et la géolocalisation d'objets urbains.

Generative Adversarial Network for Pansharpening with Spectral and Spatial Discriminators

Anaïs GASTINEAU, IMB et IMS Bordeaux, Jean-François AUJOL, IMB Bordeaux, Yannick BERTHOUMIEU, IMS Bordeaux et Christian GERMAIN IMS Bordeaux

Le problème de pansharpening permet de fusionner une image panchromatique haute-résolution et une image multispectrale basse-résolution dans le but d'obtenir une image multispectrale haute-résolution. Ainsi, la préservation de la résolution spatiale de l'image panchromatique et la résolution spectrale de l'image multispectrale est d'une importance primordiale pour le problème de pansharpening. Pour y faire face, nous proposons une nouvelle méthode basée multi-discriminateur dans un contexte GAN (Generative Adversarial Network). Le premier discriminateur est optimisé pour préserver les textures et la géométrie des images en prenant en entrée la luminance et la bande proche infra-rouge des images satellites. Le second discriminateur préserve la couleur en comparant les composantes chromatiques Cb et Cr. Cette méthode permet donc d'entraîner deux discriminateurs, chacun optimisé pour des tâches différentes mais complémentaires. De plus, pour renforcer cet aspect, la méthode proposée considère une contrainte spatiale et une contrainte spectrale dans la fonction de perte du générateur. Nous montrons les avantages de cette nouvelle méthode sur des expériences menées sur des images satellites Pléiades et WorldView 3.

Mots clés : Deep learning, Generative Adversarial Network, multi-discriminateur, télédétection, pansharpening

Fusion de Séries Temporelles Satellite Radar et Optique pour la Segmentation de Parcelle Agricole

Vivien Sainte Fare Garnot (1), Loic Landrieu (1), Nesrine Chehata (2)
1. LASTIG, ENSG, IGN Univ Gustave Eiffel. 2. EA G&E Bordeaux INP, Université Bordeaux Montaigne

Nous nous intéressons à la segmentation sémantique et d'instance de parcelles agricoles à partir de séries temporelles satellites multimodales. Plus précisément, nous cherchons à combiner les acquisitions optiques multispectrale de Sentinel-2 avec les acquisitions radar de Sentinel-1. Ces deux modalités présentent en effet une synergie bien connue: l'imagerie multi-spectrale permet de suivre l'évolution phénologique des cultures mais peut être obstruée par l'apparition de nuages. Les observations radar fournissent uniquement une information sur la structure de canopée des parcelles mais sont indépendantes de la couverture nuageuse.

Nous proposons une architecture basée sur un mécanisme d'attention qui opère sur ces deux modalités simultanément. Un encodeur spatio-temporel est ainsi capable d'extraire des dépendances inter-modalité, par opposition aux approches de fusion tardive. De plus, notre approche ne nécessite aucun pré-processing lourd tel que le ré-échantillonnage temporel, qui est nécessaire pour les approches de fusion précoce. Nous confirmons l'intérêt de notre méthode sur un nouveau benchmark de séries temporelles d'image S1 et S2, dans lequel nous incluons également des séries temporelles de cinq variables météorologiques.

Correlation-based fusion via deep learning for segmentation of multimodal medical images

Tongxue Zhou, Su Ruan, Stéphane Canu, Pierre Vera, LITIS, Université de Rouen Normandie

In the field of multimodal segmentation, the correlation between different modalities can be considered to improve segmentation results. Since there exists a strong correlation between different modalities, we first propose a linear correlation block to learn the correlation between modalities, then a loss function is used to guide the network to learn the correlated features based on the linear correlation block. Considering that not all the features extracted from the encoders are useful for segmentation, we propose to use dual attention based fusion block to recalibrate the features along the modality and spatial paths, which can suppress less informative features and emphasize the useful ones. The fused feature representation is finally projected by the decoder to obtain the segmentation result. Our experiment results tested on BraTS-2018 dataset for brain tumor segmentation demonstrate the effectiveness of our proposed method.

Domain Invariant Representation Learning with Multi-Modal Images

LAMPERT Thomas, iCUB, université de Strasbourg

Deep learning approaches to classification and segmentation in remote sensing provide state-of-the-art performance; however, they require large amounts of labelled data. This is overcome in the field of computer vision by using domain adaptation, which enables the re-use of datasets to solve the same task in another domain. Remote sensing is characterised by sensors with different characteristics (resolution, RGB-NIR, multi-spectral, hyper-spectral, etc) and this prevents the use of a common feature extractor, as required by existing domain adaptation approaches. Therefore novel architectures and approaches need to be developed. This talk will present recent advances towards learning multi-modal domain invariant representations using labels only in the source domain, and the difficulties encountered in achieving such a goal. Such an approach will prevent the obsolescence of existing labelled datasets by enabling their use between different sensors, in different geographical locations, and in different seasons and is therefore of great importance not only to the remote sensing community and, since the approach is general, also to the computer vision community.

Identification