Vous êtes ici : Réunions » Réunion

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

IA et réseaux de neurones profonds, ouvrir la boite noire : du modèle explicable à la synthèse et présentation d'explications en signal et image.

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

S'inscrire à la réunion.

Inscriptions

69 personnes membres du GdR ISIS, et 21 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 90 personnes.

Annonce

Journée commune du GDR ISIS, Thème B, Thème T, du GDR IGRV, du GDR IA et du Club EEA

13 mars 2023, CNAM Paris

Les réseaux de neurones profonds poursuivent leur progression tant sur les plans théoriques qu'applicatifs. L'usage de ces outils dans des applications critiques (conduite autonome, robotique, diagnostic médical), leur complexité et leur certification par des instances de régulation incitent néanmoins à progresser sur l'interprétabilité de ces modèles et l'explication de leurs prédictions.

Ces dernières années, de nombreuses directions de recherche se sont développées sur ce thème. On peut distinguer deux grandes familles d'approches. En premier lieu, les méthodes « post-hoc » permettant d'extraire des explications à partir de modèles déjà entraînés telles que GradCam, SHAP, Lime, FEM, etc.. Une autre approche consiste à intégrer directement des contraintes d'explicabilité intrinsèques dès la conception du modèle, par la détection d'attributs composants les concepts cibles, de prototypes ou encore l'introduction de contraintes liées à des modèles physiques.

Les travaux aussi bien théoriques qu'applicatifs s'intéressent à la pertinence de ces méthodes, leur applicabilité et leur robustesse. Notamment, la question d'évaluation des méthodes d'explication est importante dans la communauté.

La présentation des explications à l'utilisateur via des outils de visualisation de l'information est de plus une problématique complémentaire importante impactant l'utilisabilité de ces approches.

Nous proposons donc une nouvelle réunion sur l'explicabilité des modèles décisionnels en image et signal. Elle vise à partager les connaissances et retours d'expérience sur les différentes approches théoriques et méthodologiques permettant d'aller vers la transparence, la robustesse et l'équité des modèles obtenus par apprentissage automatique et les réseaux de neurones profonds en particulier.

Organisateurs :

GDR-ISIS

GDR-IGRV

GDR-IA

Club EEA

Propositions des exposés

A envoyer aux organisateurs de la journée.

Capacité d'inscription y compris les exposants est de 90 personnes

Les inscriptions


Le nombre des places est limité. Les inscriptions seront traitées au fil de l'eau avec la clôture pour des catégories suivantes :

Important : pour les collègues membres du GDR IA ou GDR IGRV il est nécessaire de s'inscrire sur le site GDR-ISIS en tant que non-membres, et INDIQUER LEUR GDR D'APPARTENANCE (GDR-IA ou GDR-IGRV).

Programme

Matinée (10h-12h45): Conférences invitées, 30 min/présentation

10h00 - 11h00

Conférence invitée 1 : Damien Garreau (Univ. Côte d'Azur, GDR-ISIS): A Sea of Words: An In-Depth Analysis of Anchors for Text Data

Conférence invitée 2 : Jean-Philippe Poli (CEA LIST, GDR-IA): "Apprentissage de relations floues pour l'annotation sémantique d'images explicable".

11h00 - 11h15 Pause café, échanges

11h15 - 12h15

Conférence invitée 3: Kacem Chehdi (Univ. Rennes1, Club EEA): "Les vrais faux échantillons d'apprentissage dans les systèmes décisionnels. Quid de l'explicabilité ".

Conférence Invitée 4: Georges Quénot (LIG, GDR-ISIS): "Analyse des approches basées sur des concepts pour la justification des résultats de recherche dans les collections vidéo"

12h45-14h Pause déjeuner

Après midi (14h00 - 16h30), présentation de travaux de nos communautés sur les problématiques XAI: une introduction de chaque contribution sous la forme d'un pitch qui sera ensuite détaillée dans une session poster.

Travaux présentés:

Résumés des contributions

Conférence invitée 1 : A Sea of Words: An In-Depth Analysis of Anchors for Text Data

Damien Garreau (Univ. Côte d'Azur, GDR-ISIS)

Anchors [Ribeiro et al. (2018)] is a post-hoc, rule-based interpretability method. For text data, it proposes to explain a decision by highlighting a small set of words (an anchor) such that the model to explain has similar outputs when they are present in a document. In this talk, I will present the first theoretical analysis of Anchors, considering that the search for the best anchor is exhaustive. I will show how one can use this analysis to gain insights on the behaviour of Anchors on simple models, including elementary if-then rules and linear classifiers.



Exposés de l'après midi

1. Évaluation des méthodes d'explication des décisions des réseaux profonds avec les métriques sans référence et avec référence. A Zhukov, J. Benois-Pineau, R. Giot (LABRI - Bordeaux)

Les méthodes les plus populaires dans le paradigme de l'apprentissage automatique sont principalement des boîtes noires. C'est pourquoi il est urgent d'expliquer les décisions de l'IA. Bien que des outils d'explication dédiés ont été massivement développés, l'évaluation de leur qualité reste une question de recherche ouverte. Nous généralisons les méthodologies d'évaluation des explicateurs post-hoc des décisions des CNNs dans les tâches de classification visuelle avec des métriques basées sur la référence et sans référence. Nous les appliquons à nos outils précédemment développés (FEM1, MLFEM), et au populaire Grad-CAM. Les métriques basées sur la référence sont le coefficient de corrélation de Pearson et la similarité calculée entre la carte d'explication et sa vérité de base représentée par une carte de densité de fixation du regard obtenue par une expérience psychovisuelle. Comme métrique sans référence, nous utilisons la métrique de stabilité, proposée par Alvarez-Melis et Jaakkola. Nous étudions son comportement, le consensus avec les métriques basées sur la référence et montrons que dans le cas de plusieurs types de dégradation sur les images d'entrée, cette métrique est en accord avec celles basées sur la référence. Par conséquent, elle peut être utilisée pour l'évaluation de la qualité d'explications lorsque la vérité terrain n'est pas disponible.


2. Prototype Learning with Deep Transformation-Invariant Clustering and its applications. Elliot VINCENT (École des Ponts - LIGM et INRIA Paris)

Explaining large-scale datasets with a set of few meaningful elemental structures is the key idea of prototype learning. If well learned and equipped with proper transformations, prototypes can faithfully reconstruct a given input. The Deep Transformation-Invariant Clustering [1] framework optimizes a reconstruction loss to learn prototypes in the input space: each input is associated with the prototypes or the set of prototypes leading to the best reconstruction. Prototypes can be sprites for images [2], spectrograms for audio samples [4], point clouds for 3D data [3] or temporal patterns for time series [5]. The resulting models can be used for downstream tasks such as classification, few-shot segmentation or multi-object instance discovery while remaining highly interpretable. In this talk, I will present 3 use cases of prototype learning: object discovery in the wild with images [2], audio identification [4] and agricultural satellite images time series classification [5].


3. Apports de l'intelligence artificielle, modélisation mathématique et optimisation en imagerie. Ishak Ayad et Mai Nguyen-Verger (Cergy Paris Université)

La tomographie assistée par ordinateur repose sur la collecte de données à l?aide de rayons X transmis, pris sous différents angles. Ensuite, à partir de cet ensemble de données, la technique de reconstruction d?image la plus connue est la rétroprojection filtrée (FBP) qui fonctionne correctement avec un ensemble complet de données, c?est-à-dire des données collectées sur un domaine angulaire ? = [0?, 180?[ avec un pas d?échantillonnage ?? ? 1?. Néanmoins, dans certaines situations pratiques, ces conditions ne peuvent pas être respectées, à savoir le domaine angulaire est tronqué et/ou éparse. Dans de tels scénarios, les reconstructions issues de l?algorithme FBP contiendront de sévères artefacts et distorsions. Ces problèmes de données manquantes ont d?abord ?et ?e abord ?es avec des techniques d?optimisation, telles que la régularisation de Tikhonov, etc. Récemment, avec le succès de l?apprentissage profond, la reconstruction d?images CT à données limitées a atteint un autre niveau, en particulier des réseaux neuronaux profonds hybrides Hu et al. (2021); Zhang et al. (2020) combinant les informations des domaines de l?image et des données. Nous proposons ici un réseau de neurones de type adversarial neural network (GAN) appel ?e Rad2Pix. Ce réseau est capable de reconstruire des objets à partir de données éparses ou à angle limité, ainsi que dans des scénarios où nous sommes confrontés aux deux problèmes en même temps (Fig. 2, Tab. 1). Le réseau proposé (voir Fig. 1) est une architecture patchGAN Pix2Ppix Isola, Zhu, Zhou, and Efros (2017) o`u le générateur (G) est un V-net et le discriminateur (D) est un patchGAN. La particularité de cette architecture réside dans sa capacité à mettre en correspondance les données (domaine de Radon) avec le domaine de l?image à différentes échelles pour extraire les caractéristiques importantes. Cette connexion est assurée par les blocs de skip connection du V-Net, constitué de couches fully connected layers. le succès de ce réseau est expliqué, en partie, grâce à l?optimisation au sens des moindres carrés réalisée par les blocs de reconstruction (en couleurs rose et rouge dans la Fig. 1) Wurfl et al. (2018). Le discriminateur PatchGAN agit également sur les deux domaines.


4. Une contrainte faiblement supervisée sur les attributions basées sur le gradient pour une classification interprétable et la détection d'anomalies. Valentine Wargnier-Dauchelle, T. Grenier, F. Durand-Dubief, F. Cotton et Michael Sdika (CREATIS, Lyon)

Le manque d?interprétabilité de l?apprentissage profond freine sa diffusion en clinique o`u les méthodes doivent être à la fois performantes et transparentes. Or du fait de leur grande capacité, la décision d?un réseau de neurones peut être guidée par des biais des bases d?entrainement plut?ot que les caractéristiques cliniques. Nous proposons de contraindre un réseau de classification d?images saines vs pathologiques pour que sa décision soit basée sur des structures radiologiques pertinentes avec pour seule annotation le label de l?image. Pour cela, nous utilisons les cartes d?attributions de type gradient comme indicateur de la décision du réseau et nous contraignons ces dernières pour que chaque voxel des images saines guide la décision du réseau vers la classe saine. Chez les patients, cela révèle les structures pathologiques permettant une segmentation non supervisée. À travers une analyse des méthodes d?attributions par gradient, nous avons aussi montré que l?utilisation du gradient pour la contrainte est équivalente à l?utilisation d?Expected Gradient[1] tout en étant moins coûteuse en calcul. En outre, nous avons proposé une contrainte combinant Expected Gradient[2] et Integrated Gradient[3] rendant le modèle robuste au choix d?attribution à l?inférence. Notre proposition a été évaluée sur deux pathologies cérébrales sur IRM : les tumeurs et la sclérose en plaques (SEP). Notre contrainte permet une classification plus interprétable et pertinente avec une décision basée sur la pathologie. Elle permet également de surpasser l?état de l?art en détection d?anomalies avec, par exemple, un gain de 15 points de Dice sur la segmentation des lésions SEP .


5. Opti-CAM: Optimizing saliency maps for interpretability. Ronan Sicre (LIS - Marseille)

Methods based on Class Activation Maps (CAM) provide a simple mechanism to interpret predictions of convolutional neural networks by using linear combinations of feature maps as saliency maps. By contrast, masking-based methods optimize a saliency map directly in the image space or learn it by training another network on additional data. In this work we introduce Opti-CAM, combining ideas from CAM-based and masking-based approaches. Our saliency map is a linear combination of feature maps, where weights are optimized per image such that the logit of the masked image for a given class is maximized. We also fix a fundamental flaw in two of the most common evaluation metrics of attribution methods. On several datasets, Opti-CAM largely outperforms other CAM-based approaches according to the most relevant classification metrics. We provide empirical evidence supporting that localization and classifier interpretability are not necessarily aligned.


6. Fonctions de croyances dans des architectures de réseaux de neurones profonds. Philippe Xu, Zeng Tong et Thierry Denoeux (UTC Heudiasyc - Troyes)

Le principe général se repose sur l?apprentissage de prototypes et l?utilisation de fonctions de croyances au niveau de la couche de décision d?un réseau. Cela permet notamment de mieux représenter les incertitudes et une meilleure interprétation des décisions avec intrinsèquement la possibilité de gérer : la détection de nouvelles classes, de données aberrantes, des annotations et prédictions imprécises ainsi que de la fusion de plusieurs réseaux. Ces travaux ont été menés avec Zeng Tong et Thierry Denoeux et ont notamment été appliqués sur des problèmes de classification et segmentation d?images.


7. Réseau de neurones ReLU interprétable pour la classification de signaux. Marie Guyomard , Susana Barbosa , Lionel Fillatre (Université Côte d'Azur)

Ces dernières années, l?utilisation des réseaux de neurones (NNs) est devenue incontournable pour les tâches de classification non linéaire dans de nombreux domaines d?application [1]. Néanmoins, l?extrême difficulté d?interprétation des résultats, mais aussi l?incertitude quant à la convergence et donc à l?unicité de leurs estimations vaut souvent aux NNs la qualification de ?Boîte Noire? [2]. Nous proposons le modèle SATURNN, acronyme de Splines Approximation Through Understandable ReLU Neral Network, pour s?affranchir de ces deux limites lorsque le NN a une couche de neurones cachée et qu?il utilise la fonction ReLU.


8. An hybrid and controllable deep learning model for music source separation. Kilian Schulze-Forster, Clement S. J. Doire, Gaël Richard, Roland Badeau (Télécom Paris Tech)

Supervised deep learning approaches to underdetermined audio source separation achieve state-of-the-art performance but require a dataset of mixtures along with their corresponding isolated source signals. Such datasets can be extremely costly to obtain for musical mixtures. This raises a need for unsupervised methods. We propose a novel unsupervised model-based (or hybrid) deep learning approach to musical source separation [1]. Each source is modelled with a differentiable parametric source-filter model. Integrating domain knowledge in the form of source models into a data-driven method leads to high data efficiency: the proposed approach achieves good separation quality even when trained on less than three minutes of audio and allows having an interpretable and highly controllable model.


9. EiX-GNN : Concept-level eigencentrality explainer for graph neural networks. Adrien Raison et al., XLIM, Univ. Poitiers

In the literature, explaining is a human knowledge transfer process regarding a phenomenon between an explainer and an explainee. We propose EiX-GNN (Eigencentrality eXplainer for Graph Neural Networks) a new powerful method for explaining graph neural networks that encodes computationally this social explainer-to-explainee dependence underlying in the explanation process. To handle this dependency, we introduce the notion of explainee concept assimibility which allows explainer to adapt its explanation to explainee background or expectation. We lead a qualitative study to illustrate our explainee concept assimibility notion on real-world data as well as a qualitative study that compares, according to objective metrics established in the literature, fairness and compactness of our method with respect to performing state-of-the-art methods. It turns out that our method achieves strong results in both aspects.


10. Explaining bodyweight estimation from face by computer vision
Nélida Mirabet-Herranz, Jean-Luc Dugelay, EURECOM, Sophia Antipolis

Weight is a soft biometric trait which estimation is useful in numerous health related applications such as remote estimation from a health professional or at-home daily monitoring. In scenarios when a scale is unavailable or the subject is unable to cooperate, i.e. road accidents, estimating a person's weight from face appearance allows for a contactless measurement. In our work, we define an optimal transfer learning protocol for a ResNet50 architecture obtaining better performances than the state-of-the-art thus moving one step forward in closing the gap between remote weight estimation and physical devices. We also demonstrate that gender-splitting, image cropping and hair occlusion play an important role in weight estimation which might not necessarily be the case in face recognition. We use up to date explainability tools to illustrate and validate our assumptions. We conduct extensive simulations on the most popular publicly available face dataset annotated by weight to ensure a fair comparison with other approaches and we aim to overcome its flaws by presenting our self-collected database composed of 400 new images.


Date : 2023-03-13

Lieu : CNAM Paris


Thèmes scientifiques :
B - Image et Vision
T - Apprentissage pour l'analyse du signal et des images

(c) GdR 720 ISIS - CNRS - 2011-2022.