Apprentissage automatique multimodal et fusion d'informations (3ième édition)

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

115 personnes membres du GdR ISIS, et 60 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 250 personnes.

Annonce

Comment venir à SCAI ? Longer l'allée à droite de l'entrée principale jusqu'au dernier bâtiment « Esclangon ». A l'intérieur du bâtiment Esclangon, prenez la 1ère sortie à gauche puis l'escalier à droite. SCAI se situe en haut des marches.

Suite aux journées « Apprentissage automatique multimodal et fusion d'informations » du 27/05/2021 et 19/01/2022, nous organisons la troisième édition sur cette thématique. Les approches de fusion d'informations sont de plus en plus utilisées dans les applications industrielles et médicales dans lesquelles il existe un réel besoin de prendre en compte plusieurs types d'informations simultanément, même celles d'un expert. Les systèmes de fusion deviennent complexes car ils impliquent toutes les étapes de la chaîne de traitement de l'information (de l'extraction à la décision). Ils ont de nombreux paramètres et impliquent un temps de calcul important. Ils ne sont pas non plus faciles à utiliser et à ajuster par les utilisateurs finaux. L'objectif de cette journée est de réunir des chercheurs afin de présenter et de discuter des développements récents dans la conception de systèmes de fusion d'informations, y compris mais non limité à ces sujets :

Comment et quelles informations extraire ?
Comment représenter et agréger l'information ?
Comment agréger des informations incertaines ou conflictuelles ?
Comment décider que le résultat global est le meilleur ?
Comment un expert peut-il utiliser et ajuster ce système ?

Les applications industrielles et médicales sont de plus en plus demandeuses de ce type de système et les experts veulent une approche coopérative dans laquelle ils ont confiance.

Appel à communications

Le programme inclura des communications pour lesquelles un appel à contributions est lancé. Si vous souhaitez présenter vos travaux, merci d'envoyer vos propositions le 5 décembre 2022 au plus tard (titre, auteurs, affiliation, un résumé de 5-10 lignes) aux organisateurs :

Mauro Dalla Mura, mauro.dalla-mura@gipsa-lab.grenoble-inp.fr
Didier Coquin, didier.coquin@univ-smb.fr
Su Ruan, su.ruan@univ-rouen.fr

Deux orateurs invités

Jocelyn CHANUSSOT, Professeur des universités, INP Grenoble.
Titre : Apprentissage profond et graphes pour la fusion de données en télédétection.
Résumé : Dans cette présentation, nous présenterons des développements récents visant à exploiter au mieux la complémentarité de données hétérogènes, notamment en imagerie satellitaire. En particulier, les représentations sous forme de graphe offrent une généricité intéressante dans la mesure où leur mise en correspondance permet d'accéder à un espace latent commun intrinsèque. Nous aborderons différents aspects (propagation des labels sur des graphes, détection de changement...).
Arnaud MARTIN, professeur des universités, IUT Lannion.
Titre : Question de conflit en fusion d'informations par la théorie des fonctions de croyance.
Résumé : Dans la fusion d'informations, le conflit est un concept important. En effet, la combinaison de plusieurs experts ou sources imparfaites entraîne inévitablement un conflit. Dans la théorie des fonctions de croyance, cette notion a été beaucoup discutée. La masse apparaissant sur l'ensemble vide lors de la règle de combinaison conjonctive est généralement considérée comme un conflit, mais ce n'est pas vraiment un conflit. Certaines mesures du conflit ont été proposées et certaines approches ont été proposées afin de gérer ce conflit ou de décider avec des fonctions de masse conflictuelles. Nous rappelons dans cette présentation certaines d'entre elles et nous proposons une discussion pour considérer le conflit dans la fusion d'informations avec la théorie des fonctions de croyance.

Programme

10h00 - 11h00 Apprentissage profond et graphes pour la fusion de données en télédétection.
Jocelyn CHANUSSOT, Professeur des universités, INP Grenoble.

11h00 - 11h20 Fusion dynamique de feature maps extraites par un ensemble de réseaux de neurones sur des images de sources différentes.
Guillaume Heller, Eric Perrin, Valeriu Vrabie, Cédric Dusart, Marie-Laure Panon, Sébastien Debuisson, Solen Le Roux

11h20 - 11h40 Snow cover estimation using radar images based on optical image references.
Mathias Montginoux, Flora Weissgerber, Céline Monteil, and Alexandre Girard

11h 40 - 12h00 Étude du protocole Quality No Reference (QNR) pour l'évaluation de la qualité du produit de fusion d?images satellitaires multispectrales et panchromatiques (pansharpening)
Paul AIMÉ

12h00 - 12h20 Identification des facteurs responsables des îlots de chaleur urbains par Réseaux Antagonistes Génératifs.
Issam Khedher, Jean-Marie Favreau, Gilles Gesquière, Serge Miguet

12h20-14h: pause déjeuner

14h00 - 15h00 Question de conflit en fusion d'informations par la théorie des fonctions de croyance.
Arnaud MARTIN, professeur des universités, Université de Rennes 1.

15h00 - 15h20 MacSum, un opérateur d?agrégation imprécis.
Yassine Hmidy, Agnès Rico et Olivier Strauss

15h20 - 15h40 Comparison of the performance of different classification and decision fusion methods to analyse spectra obtained from precancerous skin lesions by using bimodal spatially resolved spectroscopic technique
Valentin Kupriyanov, Walter Blondel, Christian Daul, Marine Amouroux and Yury Kistenev

15h40- 16h00 Assisting Deep Learning based Lyme Disease Classifier with Patient Data
Sk Imran Hossain

16h00- 16h20 E-MMOTEP: Embedded MultiMOdal real-Time Environment Perception
Pascal Aubry, Tiana Rakotovao, Dinh-Khan Ho, Mehdi Darouich et Erwan Piriou

16h20-16h40 Lightweight integration of 3D features to improve 2D image segmentation
Olivier Pradelle, Raphaëlle Chaine, Julie Digne, David Wendland

16h40 : Conclusion et discussion

Résumés des contributions

Apprentissage profond et graphes pour la fusion de données en télédétection.

Jocelyn CHANUSSOT, Professeur des universités, INP Grenoble.

Résumé : Dans cette présentation, nous présenterons des développements récents visant à exploiter au mieux la complémentarité de données hétérogènes, notamment en imagerie satellitaire. En particulier, les représentations sous forme de graphe offrent une généricité intéressante dans la mesure où leur mise en correspondance permet d'accéder à un espace latent commun intrinsèque. Nous aborderons différents aspects (propagation des labels sur des graphes, détection de changement...).

Question de conflit en fusion d'informations par la théorie des fonctions de croyance.

Arnaud MARTIN, professeur des universités, IUT Lannion.

Résumé : Dans la fusion d'informations, le conflit est un concept important. En effet, la combinaison de plusieurs experts ou sources imparfaites entraîne inévitablement un conflit. Dans la théorie des fonctions de croyance, cette notion a été beaucoup discutée. La masse apparaissant sur l'ensemble vide lors de la règle de combinaison conjonctive est généralement considérée comme un conflit, mais ce n'est pas vraiment un conflit. Certaines mesures du conflit ont été proposées et certaines approches ont été proposées afin de gérer ce conflit ou de décider avec des fonctions de masse conflictuelles. Nous rappelons dans cette présentation certaines d'entre elles et nous proposons une discussion pour considérer le conflit dans la fusion d'informations avec la théorie des fonctions de croyance.

MacSum, un opérateur d'agrégation imprécis

Auteurs : Yassine Hmidy (LIRMM Université de Montpellier), Agnès Rico (LIRIS Université Claude Bernard) et Olivier Strauss (LIRMM Université de Montpellier)

Résumé : L'identification d'un système multi-entrée/simple-sortie permet la création d'un modèle mathématique qui représente le plus fidèlement possible la relation entrée-sortie induite par un système physique. Lorsqu'il existe peu d'informations sur les lois physiques liées au système ou lorsque le système est trop complexe, des méthodes telles que l'identification paramétrique sont utilisées pour définir le modèle du système. Dans ce cas, des hypothèses préliminaires peuvent être faites sur le système conduisant à un modèle paramétrique basé sur une fonction d'agrégation. Ce modèle paramétrique peut être appris en estimant les paramètres de cette fonction d'agrégation à partir d'un ensemble représentatif d'entrées/sorties. Une difficulté majeure est de concevoir un modèle qui soit relativement simple mais suffisamment précis pour répondre aux besoins de l'utilisateur.
Les modèles linéaires sont couramment utilisés car ils répondent à ces deux contraintes contradictoires. Cependant, l'utilisation d'un modèle linéaire se fait souvent au détriment de la précision de la description de la relation entrée-sortie. Dans un article récent, une nouvelle approche de modélisation a été proposée, sous le nom de modélisation macsum, qui vise à remplacer le concept de modèle linéaire par un ensemble de modèles linéaires. La fonction d'agrégation obtenue conduit à une sortie à valeur d'intervalle, cet intervalle représentant le manque de précision du modèle pour prédire la sortie du système lorsque les entrées sont connues. Une caractéristique intéressante de ce modèle est qu'il est régi par un seul vecteur paramétrique précis alors que la sortie est imprécis, la dimension dudit vecteur étant égale à celle de l'espace d'entrée.

Dans cette présentation, nous expliquons brièvement le principe de ce nouvel opérateur et nous présentons une méthode de regression permettant apprendre le vecteur de paramètres à partir d'un jeu de données d'apprentissage. Cette approche est particulièrement nouvelle car l'agrégation macsum est basée sur une intégrale de Choquet et très peu d'auteurs ont proposé l'apprentissage d'une fonction d'agrégation basée sur l'intégrale de Choquet.

Fusion dynamique de feature maps extraites par un ensemble de réseaux de neurones sur des images de sources différentes

Auteurs : Guillaume Heller (1,2), Eric Perrin (1), Valeriu Vrabie (1), Cédric Dusart (2), Marie-Laure Panon (3), Sébastien Debuisson (3), Solen Le Roux (2)

Affiliations : (1) Université de Reims Champagne Ardenne, CReSTIC EA 3804, 51097 Reims, France, (2) Segula Technologies, France, (3) Comité Interprofessionnel du vin de Champagne, 5 Rue Henri Martin, CS 30135, 51204 Epernay, France

Résumé :

L'utilisation de différentes représentations d'une même image pour extraire des caractéristiques complémentaires et améliorer les capacités des modèles de classification est de plus en plus répandue. Nous pouvons par exemple citer l'association d'images RGB et thermiques pour construire des modèles performants de jour comme de nuit. Ces solutions nécessitent cependant que les images soient parfaitement alignées et comportent une étape importante de pré-traitement.

Dans ces travaux, nous proposons une solution capable de combiner les feature maps extraites par un ensemble de réseaux de neurones à partir de données multispectrales, soumises à des phénomènes de parallaxe, sans devoir passer par une étape de réalignement des images. Nous proposons ensuite plusieurs stratégies pour rendre dynamique la combinaison des informations, notamment lorsque l'on réalise des acquisitions en extérieur, durant lesquelles toutes les images multispectrales ne sont pas perturbées de la même manière.

E-MMOTEP: Embedded MultiMOdal real-Time Environment Perception

Auteurs : Pascal Aubry, Tiana Rakotovao, Dinh-Khan Ho, Mehdi Darouich et Erwan Piriou.

Résumé :

Nous présenterions une approche de perception unifiée intégrant les données de caméras LWIR, RGB et d'un LIDAR. Elle permet l'intégration d'un ensemble de fonctionnalités à partir notamment de données brutes IR thermiques vers une représentation 2.5D sur des cibles matérielles embarquées. Ainsi, la contribution de la caméra IR est évaluée à travers :
- la conception de détecteur d'obstacles sur route à base de CNN pour les piétons et les objets multi-classes sur les images LWIR,
- l'évaluation de la stéréo LWIR à travers la comparaison de nuages de points avec le LIDAR, avec un accent particulier sur une plateforme de caméra stéréo IR personnalisée,
- la fusion des données 3D du LIDAR et des données sémantiques de l'inférence IR dans une grille d'occupation 2.5D avec clustering et analyse de la dynamique des objets,

En outre, une plateforme embarquée multi-capteurs adaptable à d'autres contextes applicatifs fournit également une base de référence pour aborder les questions de calibration et d'équilibrage de la charge de calcul sur les cibles embarquées pour les fonctionnalités mises en oeuvre.

Assisting Deep Learning based Lyme Disease Classifier with Patient Data

Author: Sk Imran Hossain

Affiliation: Université Clermont Auvergne, CNRS, ENSMSE, LIMOS, F-63000 Clermont-Ferrand, France

Abstract: Diagnosing erythema migrans (EM) skin lesion, the most common early symptom of Lyme disease using deep learning techniques can be effective to prevent long-term complications. Existing works on deep learning based EM recognition only utilizes lesion image due to the lack of a dataset of Lyme disease related images with associated patient data. Physicians rely on patient information about the background of the skin lesion to confirm their diagnosis. In order to assist the deep learning model with a probability score calculated from patient data, we elicited opinion from fifteen doctors. We also proposed a strategy for fusing the EM probability score from a deep learning based image classifier with the elicited probability score from patient data. The proposed approach ensures veto power for the patient data. The elicited probability score and the proposed fusing approach can be utilized to make image based deep learning Lyme disease pre-scanners robust.

Snow cover estimation using radar images based on optical image references

Auteurs: Mathias Montginoux1, Flora Weissgerber1, Céline Monteil2, and Alexandre Girard3

Affiliation: 1: DTIS, ONERA, Université Paris-Saclay, Palaiseau, France; 2: EDF R&D LNHE, Chatou, France ; 3: EDF R&D PRISME, Chatou, France

Abstract: In order to improve the forecasting of hydraulic production, EDF uses optical satellite images to evaluate the snow cover. These images are acquired daily by the MODIS instrument of the Terra satellite. However, part of the information on the snow cover is lost due to clouds. To fill this gap we propose to detect the snow from SAR images using a convolutional neural network trained with optical images from MODIS as labels. A binary semantic segmentation is computed from two SAR inputs : a wet snow ratio and a dry snow ratio. The trained model, called SESAR U-net, gives a snow detection with an overall accuracy of 80% for our test set. This low accuracy result can be explained by the fact that MODIS images have a resolution 25 to 100 times coarser than the SAR images, which hinder both the training and the evaluation of the model. Further works will take into account the uncertainty of the MODIS label in the loss computation to improve the training.

Comparison of the performance of different classification and decision fusion methods to analyse spectra obtained from precancerous skin lesions by using bimodal spatially resolved spectroscopic technique

Auteurs: Valentin Kupriyanov1,2 , Walter Blondel1 , Christian Daul1 , Marine Amouroux1 and Yury Kistenev2

Affiliation : 1: Universite de Lorraine, CNRS, CRAN UMR 7039, Vandoeuvre-lès-Nancy, France, 54500; 2: Laboratory of Laser Molecular Imaging and Machine Learning, Tomsk State University, Russia

Abstract: Non-invasive diagnosis of skin cancer using multimodal optical techniques has developed rapidly in recent decades. Complex data processing methods are required to analyse and combine and results obtained from the same samples by using different combinations of light sources and detectors. This contribution presents data processing pipeline developed to analyse spatially resolved diffuse reflectance and multiply excited autofluorescence spectra collected in vivo on precancerous and benign lesions in mice skin. The results were processed using principal component analysis for feature extraction together with supervised classification methods such as support vector machine, linear discriminant analysis, multi-layer perceptron and random forest. The last step of this pipeline was the fusion of decisions performed by stacking, majority voting and convex combination. Our study presents a comparison of the performance of these methods and their combinations for skin lesion multiclass supervised classification.

Lightweight integration of 3D features to improve 2D image segmentation

Auteurs : Olivier Pradelle (LIRIS, Technodigit), Raphaëlle Chaine (LIRIS), Julie Digne (LIRIS), David Wendland (Technodigit)

Résumé :

Dans cette présentation, nous nous intéresserons à l'utilisation des nuages de points comme information complémentaire pour la segmentation sémantique d'images 2D par apprentissage supervisé. En effet, de nombreuses bases de données fournissent la géométrie d'une scène 3D, sous forme d'un nuage de points, en plus d'images prises durant la numérisation.

Les méthodes exploitant ces 2 types de données requièrent généralement une vérité terrain 3D, dont la création est fastidieuse et souvent approximative, puis utilisent des réseaux 3D coûteux en mémoire.

Pour segmenter une image 2D, nous proposons une méthode simple pour optimiser l'extraction de caractéristiques géométriques d'une sous-partie pertinente du nuage de points et fusionner ces caractéristiques à l'information de couleur de chaque pixel. Le processus est supervisé uniquement par des labels par pixel, qui sont beaucoup plus faciles à obtenir, et repose sur des réseaux légers classiques, avec un temps d'entrainement raisonnable sur une machine standard, et permet des gains significatifs par rapport à des réseaux images purs.

Étude du protocole Quality No Reference (QNR) pour l'évaluation de la qualité du produit de fusion d'images satellitaires multispectrales et panchromatiques (pansharpening)

Auteur : Paul AIMÉ, doctorant IMT Atlantique, Lab-STICC

Résumé : Le processus de pansharpening consiste en la fusion d'une image multispectrale et d'une image panchromatique afin d'obtenir un produit ayant les caractéristiques spectrales de la première et spatiales de la seconde. L'évaluation de ce processus est rendue difficile par l'absence de référence. Le plus souvent les images sont artificiellement dégradées afin que l'image multispectrale de base puisse servir de référence. Pour toutefois pouvoir évaluer le résultat de fusion sans passer par une dégradation, le protocole Quality No Reference (QNR) a été proposé et fait aujourd'hui référence. En plus de permettre une évaluation à pleine échelle, il est également construit comme une synthèse de la qualité spectrale du produit de fusion et de sa qualité spatiale. Dans cette présentation, nous étudierons le comportement du QNR afin d'en évaluer la pertinence. Son comportement sera étudié par comparaison à celui d'autres protocoles existants, mais aussi par comparaison avec différentes variations de sa formulation, reposant sur des paramètres explicites ou implicites, dont nous nous attacherons à montrer l'influence.

Identification des facteurs responsables des îlots de chaleur urbains par Réseaux Antagonistes Génératifs.

Auteurs : Issam Khedher, Jean-Marie Favreau, Gilles Gesquière, Serge Miguet

Résumé: Ce travail s'inscrit dans le cadre du projet « IA et multi-modalité pour l'observation des territoires » de la région Auvergne Rhône-Alpes (IATOAURA), et plus particulièrement d'une thèse consacrée au monitoring urbain. Notre premier domaine d'études concerne l'identification des facteurs responsables de l'apparition d'îlots de chaleur. Pour atteindre notre objectif, nous avons réalisé un système qui permet de générer des images de températures au sol, et se basant sur des ortho-photos. Ce modèle géneratif, entraîné sur les données ouvertes du Grand Lyon, apprend le lien entre des ortho-images RGB et des cartes de température. Nos premières expériences montrent qu'un apprentissage basé sur un pavage systématiques en tuiles non-recouvrantes de nos données ne permet pas de disposer de suffisamment de données pour un apprentissage satisfaisant. Nous illustrons plusieurs stratégies permettant d'ajouter de la variabilité, à la fois dans les données d'apprentissage et dans les données de test, afin d'améliorer la qualité de l'apprentissage. Nous montrons néanmoins que la seule modalité RGB est insuffisante pour correctement caractériser la température au sol, avec par exemple des terrains de sport synthétiques prédits comme « zones fraiches » alors qu'ils sont mesurés comme « chauds », le système étant incapable de les distinguer de terrains naturellement engazonnés. Les perspectives de ce travail visent à intégrer d'autres modalités comme des données vectorielles (nature du terrain, emprise et hauteur des bâtiments, ...), ou des données météo à grande échelle, pour améliorer la précision de nos modèles.