Apprentissage automatique multimodal et fusion d'informations, 4ième édition

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

62 personnes membres du GdR ISIS, et 62 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 200 personnes.

Annonce

La réunion est prévue en mode hybride, merci aux participants qui souhaitent assister en présence de l'indiquer par e-mail aux organisateurs, Su Ruan, Didier Coquin et Mauro Dalla Mura (coordonnées ci-dessous).

Apprentissage automatique multimodal et fusion d'informations
(4ième édition)

Suite des journées « Apprentissage automatique multimodal et fusion d'informations » du 27/05/2021, du 19/01/2022, et du 15/12/2022, nous organisons la quatième édition sur cette thématique qui aura lieu le 02/10/2024 dans la salle SCAI, Université Paris Sorbonne. Les approches de fusion d'informations sont de plus en plus utilisées dans les applications industrielles et médicales dans lesquelles il existe un réel besoin de prendre en compte plusieurs types d'informations simultanément, même celles d'un expert. Les systèmes de fusion deviennent complexes car ils impliquent toutes les étapes de la chaîne de traitement de l'information (de l'extraction à la décision). Ils ont de nombreux paramètres et impliquent un temps de calcul important. Ils ne sont pas non plus faciles à utiliser et à ajuster par les utilisateurs finaux. L'objectif de cette journée est de réunir des chercheurs afin de présenter et de discuter des développements récents dans la conception de systèmes de fusion d'informations, y compris mais non limité à ces sujets :

Comment et quelles informations extraire ?
Comment représenter et agréger l'information ?
Comment agréger des informations incertaines ou conflictuelles ?
Comment décider que le résultat global est le meilleur ?
Comment un expert peut-il utiliser et ajuster ce système ?

Les applications industrielles et médicales sont de plus en plus demandeuses de ce type de système et les experts veulent une approche coopérative dans laquelle ils ont confiance.

Appel à communications

Le programme inclura des communications pour lesquelles un appel à contributions est lancé. Si vous souhaitez présenter vos travaux, merci d'envoyer vos propositions le 12 Septembre 2024 au plus tard (titre, auteurs, affiliation, un résumé de 5-10 lignes) aux organisateurs :

Didier Coquin, didier.coquin@univ-smb.fr
Mauro Dalla Mura, mauro.dalla-mura@gipsa-lab.grenoble-inp.fr
Su Ruan, su.ruan@univ-rouen.fr

Deux orateurs invités

Isabelle BLOCH, Professeur des universités, LIP6, Sorbonne Université
Thomas RODET, professeur des universités, SATIE, ENS Paris-Saclay

La réunion aura lieu en mode hybride. L'inscription est obligatoire même à distance.

Programme

10h00 - 11h00 Fusion reconstruction conjointe de données multimodales : des approches de type problèmes inverses au transfert learning. Thomas RODET, professeur des universités, SATIE, ENS Paris-Saclay.

11h00 - 11h20 Single-Model and Any-Modality for Video Object Tracking.

Zongwei Wu, Jilai Zheng, Xiangxuan Ren, Florin-Alexandru Vasluianu, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte

11h20 - 11h40 Régularisation avec réseaux de neurones non entrainés pour la fusion de données multispectrales et hyperspectrales de grande dimension

Dan Pineau, François Orieux, Alain Abergel

11h40- 12h00 Multi Modal Remote Sensing Visual Question Answering

Hichem Boussaid, Lucrezia Tosato, Camille Kurtz, Flora Weissgerber, Laurent Wendling, Sylvain Lobry

12h00- 12h20 Data Fusion over Graphs under communication constraints

Romain Chor

12h20-14h: pause déjeuner

14h00 - 15h00 Fusion des informations hétérogènes par la théorie des ensembles flous. Isabelle Bloch, Professeur des universités, LIP6, Sorbonne Université.

15h00 - 15h20 Deep evidential fusion with uncertainty quantification and reliability learning for multimodal medical image segmentation.

Ling Huang, Su Ruan, Pierre Decazes, Thierry Denoeux

15h20 - 15h40 Fusion d'images échocardiographiques et de données cliniques pour la caractérisation du continuum de l'hypertension

Nathan Painchaud , Jérémie Stym-Popper, Pierre-Yves Courand, Nicolas Thome, Pierre-Marc Jodoin, Nicolas Duchateau, Olivier Bernard

15h40 - 16h00 PET-based lesion graphs meet clinical data: An interpretable cross-attention framework for DLBCL treatment response prediction

Oriane Thiery, Mira Rizkallah, Clément Bailly, Caroline Bodet-Milin, Emmanuel Itti, René-Olivier Casasnovas, Steven Le Gouill, Thomas Carlier and Diana Mateus

16h20 : Conclusion et discussion

Résumés des contributions

Fusion reconstruction conjointe de données multimodales : des approches de type problèmes inverses au transfert learning

Thomas Rodet

Cette présentation vise à résoudre un problème de détection précoce du cancer du sein. Pour ce faire nous allons montrer qu'avec la mesure "simultané" avec deux modalités complémentaires nous pouvons amérioler de manière significative la qualité des images. Cette présentation correspond aux travaux de deux thèses, celle de Yingying Qin et celle de Valentin Noel qui sera soutenue en octobre prochain.

Nous avons choisi une modalité utilisant les ultrasons qui permettent de capturer les singularités et une imagerie micro-onde qui permet d'avoir un fort contraste des tissus tumoraux. Ces deux modalités sont très complémentaires car l'imagerie ou la tomographie micro-onde permet d'avoir un contraste important pour les tumeurs mais elle permet uniquement de reconstruire des images de relativement basse résolution. A l'inverse l'imagerie ultrasonore permet de mesure la morphologie du sein mais avec un contraste faible pour détecter les tumeurs. A travers ce problème de reconstruction complexe nous aborderons des aspects méthodologiques permettant de formaliser cette fusion d'information. Nous commencerons dans le formalisme des problèmes inverses en utilisant une approche bayésienne hiérarchique en introduisant des variables cachées permettant de modéliser la composante morphologique de l'image. Puis nous présenterons une approche d'intelligence artificielle que l'on associera à la physique de mesure afin de limiter la taille de la complexité du réseau de neurones. De plus, nous montrons l'intérêt dans le cadre de réseau associant des connaissances physiques les avantages de l'utilisation de réseaux bayésiens. Enfin, nous présenterons en quoi le problème de fusion reconstruction peut tirer partie du transfert learning.

Single-Model and Any-Modality for Video Object Tracking

Auteurs: Zongwei Wu, Jilai Zheng, Xiangxuan Ren, Florin-Alexandru Vasluianu, Chao Ma, Danda Pani Paudel, Luc Van Gool, Radu Timofte
Affiliation: University of Wuerzburg, Shanghai Jiao Tong Unversity, ETH Zurich, INSAIT

Résumé: Auxiliary modalities have emerged as valuable assets to complement the RGB trackers. However, a single-model unification for multi-modality tracking presents several challenges. These challenges stem from the inherent heterogeneity of inputs--each with modality-specific representations the scarcity of multi-modal datasets and the absence of all the modalities at all times. In this work, we introduce a Unified Tracker of a single set of parameters for any modality. Our method learns their common latent space through low-rank factorization and reconstruction techniques. More importantly, we use only the RGB-X pairs to learn the common latent space. We achieve +8.1 absolute F-score gain on the DepthTrack dataset by introducing only +2.14 (over 21.50) GFLOPs with +6.6 M (over 93M) parameters through a simple yet efficient prompting strategy.

Régularisation avec réseaux de neurones non entrainés pour la fusion de données multispectrales et hyperspectrales de grande dimension

Auteurs : Dan Pineau, François Orieux, Alain Abergel
Affiliations : Laboratoire des Signaux et Systèmes (L2S), Institut d'Astrophysique Spatiale (IAS)

Résumé : La fusion d'images multispectrales-hyperspectrales (MS-HS) avec flous spatiaux est un problème mal posé, communément résolu en minimisant un critère mixte contenant des termes d'attache aux données et un terme de régularisation de Tikhonov. Cependant, ce type de régularisation « basée modèle » peut manquer de flexibilité pour s'adapter à des structures plus complexes, limitant alors la qualité des reconstructions. En revanche, les régularisations avec réseaux non entraînés, ou Untrained Neural Network Priors (UNNP), récemment proposés (Ulyanov et al., 2018, Uezato et al., 2020), sont capables de surpasser les régularisations classiques (Guilloteau et al., 2018) dans la plupart des problèmes inverses d'imagerie, sans nécessiter d'apprentissage préalable avec une base de données labellisées. Nous montrons l'intérêt d'utiliser ces réseaux couplés à une approximation de rang faible pour la résolution du problème de fusion MS-HS, et notamment d'utiliser des dropouts adaptatifs pour estimer l'incertitude de reconstruction et améliorer la robustesse de la solution. Nous comparons ces méthodes sur des données de simulations MS-HS de l'instrument MIRI du télescope spatial James Webb (JWST).

Multi Modal Remote Sensing Visual Question Answering

Auteurs : HichemBoussaid1, Lucezia Tosato 1,2, Camille Kurtz1, Flora Weissgerber 2, Laurent Wendling 1, Sylvain Lobry 1.
Affiliation : 1: LIPADE, Universite Paris Cité, 75006 Paris, France. 2: DTIS, ONERA, Universite Paris Saclay, FR-91123 Palaiseau, France.

Résumé : Ce travail est une extension au multimodal de la tâche de Remote Sensing Visual Question Answering (RSVQA) qui vise à répondre à des questions à l'aide d'images de télédétection. Nous présentons un jeu de données combinant des ortho-images de très haute résolution (20 cm), des images radar Sentinel-1 et des images multi-spectrales Sentinel-2. Pour démontrer l'apport des données radar et multi-spectrales, nous avons comparé les performances sur ce jeu de données de deux modèles distincts. Le premier utilise uniquement les ortho-images, alors que le second exploite les trois modalités. L'architecture proposée utilise des encodeurs pour chaque type d'image, qui sont ensuite combinés aux questions grâce à un modèle Vision-Language (VisualBERT).

Data Fusion over Graphs under communication constraint

Auteur : Abdellatif Zaidi
Affiliation : Université Paris-Est

Résumé : We present techniques that can be used for learning, inference and fusion of data over networks that can be modeled by a directed graph. Specifically, nodes are equipped each with a (possibly different) neural network and some of them possess data that is relevant to some inference tasks which needs to be performed at the end (fusion) node, with the risk measured under logarithmic loss. The graph defining the network topology is fixed and known. We develop a learning algorithm and an architecture that make use of the multiple data streams and processing units available distributively, not only during the training phase but also during the inference phase. In particular, the analysis reveals how inference propagates and fuses across a network. We study the design criterion of our proposed method and its bandwidth requirements. Also, we discuss implementation aspects using neural networks in typical wireless radio access; and provide experiments that illustrate benefits over state-of-the-art techniques.

Fusion des informations hétérogènes par la théorie des ensembles flous

Isabelle Bloch

L'interprétation d'images s'appuie souvent sur des informations hétérogènes (image, texte, connaissances expertes, annotations), qui peuvent être imprécises, incomplètes, partiellement contradictoires. La théorie des ensembles flous apporte des solutions à leur fusion, tant au niveau de la modélisation que du raisonnement. Cette approche sera illustrée sur des exemples empruntés à l'imagerie médicale et aux humanités numériques.

Deep evidential fusion with uncertainty quantification and reliability learning for multimodal medical image segmentation

Authors: Ling Huang-a, Su Ruan-b, Pierre Decazes-c, Thierry Denoeux-d
Affiliations: a- National University of Singapore, b- Quantif, LITIS, Université de Rouen Normandie, c- Centre Henri Becquerel, Rouen, d- Heudiasyc, CNRS, Université de Technologie de Compiègne

Abstract: This work introduces a deep evidential fusion framework that considers prediction uncertainty and information reliability based on Dempster-Shafer Theory. In the proposed framework, features are first extracted from each imaging modality using a deep neural network, and features are mapped to Dempster-Shafer mass functions that describe the evidence of each modality at each voxel. The mass functions are then corrected by the contextual discounting operation, using learned coefficients quantifying the reliability of each source of information relative to each class. The discounted evidence from each modality is then combined using Dempster's rule of combination. The results on PET-CT lymphoma and multi-MRI brain tumor segmentation tasks demonstrate the ability of the proposed fusion scheme to quantify segmentation uncertainty and improve segmentation accuracy. Moreover, the learned reliability coefficients provide some insight into the contribution of each modality to the segmentation process.

Fusion d'images échocardiographiques et de données cliniques pour la caractérisation du continuum de l'hypertension

Auteurs : Nathan Painchaud [1, 2], Jérémie Stym-Popper [3], Pierre-Yves Courand [1, 4, 5], Nicolas Thome [3], Pierre-Marc Jodoin [2], Nicolas Duchateau [1, 6], Olivier Bernard [1]
Affiliations: 1. Univ Lyon, INSA-Lyon, Université Claude Bernard Lyon 1, CNRS, Inserm, CREATIS UMR 5220, U1294, 2. Département d'informatique, Université de Sherbrooke, Sherbrooke, QC, Canada 3. Sorbonne Université, CNRS, ISIR, F-75005 4. Département de cardiologie, Hôpital Croix-Rousse, Hospices Civils de Lyon 5. Département de cardiologie, Hôpital Lyon Sud, Hospices Civils de Lyon Institut Universitaire de France (IUF)

Résumé: En s'appuyant sur des innovations récentes dans le domaine des transformeurs et des modèles de fondation, nous proposons une approche novatrice pour étudier l'hypertension en considérant l'ensemble des données disponibles sur un patient. En combinant des images échocardiographiques avec des données cliniques structurées, notre modèle apprend i) une représentation unifiée d'une population de patients, et ii) à stratifier la sévérité de la maladie le long d'un continuum pathologique. En structurant l'espace de représentation au travers de trois catégories caractérisant la stratification de la pathologie, notre méthode atteint des performances remarquables (98% AUROC), dépassant les modèles issus de l'état de l'art. Du point de la fusion des données, nos résultats montrent que, dans un contexte médical typique avec peu de données, le pré-traitement individuel des types de données, basé sur des connaissances a priori de l'application, est plus important que la stratégie de fusion.

PET-based lesion graphs meet clinical data: An interpretable cross-attention framework for DLBCL treatment response prediction

Auteurs : Oriane Thiery-a, Mira Rizkallah-a, Clément Bailly-b,c, Caroline Bodet-Milin-b,c, Emmanuel Itti-d, René-Olivier Casasnovas-e, Steven Le Gouill-c, Thomas Carlier-b,c and Diana Mateus-a
Affiliations : -a Nantes Université, Centrale Nantes, CNRS, LS2N, UMR 6004, France, -b Nuclear Medicine Department, University Hospital, Nantes, France, -c Nantes Université, INSERM, CNRS, Université d'Angers, CRCI2NA, Nantes, France, -d Nuclear Medicine, CHU Henry Mondor, Paris-Est University, Créteil, France, -e Hematology, CHU Dijon Bourgogne, France

Résumé: Diffuse Large B-cell Lymphoma (DLBCL) is a lymphatic cancer of steadily growing incidence. Its diagnostic and follow-up rely on the analysis of clinical biomarkers and 18F-Fluorodeoxyglucose (FDG)-PET/CT images. In this context, we target the problem of assisting the early identification of high-risk DLBCL patients from both images and tabular clinical data. We propose a solution based on a graph neural network model, capable of simultaneously modeling the variable number of lesions across patients, and fusing information from both data modalities and over lesions. Given the distributed nature of the DLBCL lesions, we represent the PET image of each patient as an attributed lesion graph. Such lesion-graphs keep all relevant image information, while offering a compact tradeoff between the characterization of full images and single lesions. We also design a cross-attention module to fuse the image attributes with clinical indicators, which is particularly challenging given the large difference in dimensionality and prognostic strength of each modality. To this end, we propose several cross-attention configurations, discuss the implications of each design and experimentally compare their performances. The last module fuses the updated attributes across lesions and makes a probabilistic prediction of the patient's 2-year progression-free survival (PFS). We carry out the experimental validation of our proposed framework on a prospective multicentric dataset of 545 patients. Experimental results show our framework effectively integrates the multi-lesion image information improving over a model relying only on the most prognostic clinical data. The analysis further shows the interpretable properties inherent to our graph-based design, which enables tracing the decision back to the most important lesions and features.

EviDeep : combiner fonctions de croyance et deep learning pour améliorer la perception des véhicules autonomes

Auteurs : Thomas Josso-Laurain1, Vasile Giurgi1, Maxime Devanne1, Jean Dezert2, Jean-Philippe Lauffenburger1
Affiliation : 1 IRIMAS, Université de Haute-Alsace, Mulhouse, 2 ONERA, Palaiseau

Résumé : Le projet ANR JCJC EviDeep vise à améliorer la perception des véhicules autonomes. Les premiers travaux se focalisent sur la détection de l'espace navigable. Différentes approches permettent d'utiliser l'intelligence artificielle pour la fusion de données ; c'est le cas des réseaux de neurones effectuant une fusion multi-source directement au sein des layers à partir de données hétérogènes issues de différents capteurs (caméras RGB/plénoptiques/polarimétriques, lidars, radars, etc.). A l'issue de ce réseau de neurones, une couche Softmax classifie chaque pixel selon qu'il appartienne à la route ou non.

L'architecture proposée dispose de deux niveaux de fusion : le premier intégré dans le réseau et le deuxième en remplaçant la couche Softmax par des prototypes (conversion des cartes de sorties en fonctions de croyance) qui seront fusionnés. Une dernière brique de prise de décision complète l'architecture et permet une identification de chaque pixel afin d'obtenir une segmentation de la route.

L'intégration de ces fonctions de croyance induit de nouveaux paramètres à décider, le nombre de prototypes, le choix de l'opérateur de fusion ou encore le choix de la méthode de prise de décision.

Au cours de cette présentation, nous ferons un état des lieux de l'avancée actuelle du projet : un réseau de neurones dit « cross-fusion » qui extrait des données capteur (caméra RGB et lidar) des cartes de sortie, converties ensuite en prototypes puis fusionnés. Divers opérateurs ont été envisagés (DS, PCR6+). L'interprétation des résultats et la classification se font via la belief interval distance. Des premiers résultats de simulation sur le jeu de données KITTI seront présentés.

Identification