IA et réseaux de neurones profonds, ouvrir la boite noire : du modèle explicable à la synthèse et présentation d'explications en signal et image.

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

83 personnes membres du GdR ISIS, et 43 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 300 personnes.

Annonce

Journée commune du GDR ISIS, Thème B, Thème T, du GDR IGRV, du GDR IA et du Club EEA

Date : 13 mars 2023

Lieu : Amphi Jean Prouvé - Conservatoire national des arts et métiers, 292 rue Saint Martin, 75003 Paris. Voir ici un plan d'accès (métro Arts et métiers ou Réaumur-Sébastopol).

Les réseaux de neurones profonds poursuivent leur progression tant sur les plans théoriques qu'applicatifs. L'usage de ces outils dans des applications critiques (conduite autonome, robotique, diagnostic médical), leur complexité et leur certification par des instances de régulation incitent néanmoins à progresser sur l'interprétabilité de ces modèles et l'explication de leurs prédictions.

Ces dernières années, de nombreuses directions de recherche se sont développées sur ce thème. On peut distinguer deux grandes familles d'approches. En premier lieu, les méthodes « post-hoc » permettant d'extraire des explications à partir de modèles déjà entraînés telles que GradCam, SHAP, Lime, FEM, etc.. Une autre approche consiste à intégrer directement des contraintes d'explicabilité intrinsèques dès la conception du modèle, par la détection d'attributs composants les concepts cibles, de prototypes ou encore l'introduction de contraintes liées à des modèles physiques.

Les travaux aussi bien théoriques qu'applicatifs s'intéressent à la pertinence de ces méthodes, leur applicabilité et leur robustesse. Notamment, la question d'évaluation des méthodes d'explication est importante dans la communauté.

La présentation des explications à l'utilisateur via des outils de visualisation de l'information est de plus une problématique complémentaire importante impactant l'utilisabilité de ces approches.

Nous proposons donc une nouvelle réunion sur l'explicabilité des modèles décisionnels en image et signal. Elle vise à partager les connaissances et retours d'expérience sur les différentes approches théoriques et méthodologiques permettant d'aller vers la transparence, la robustesse et l'équité des modèles obtenus par apprentissage automatique et les réseaux de neurones profonds en particulier.

Organisateurs :

GDR-ISIS

Alexandre Benoit : alexandre.benoit@univ-smb.fr
Nicolas Audebert : nicolas.audebert@cnam.f
Jenny Benois-Pineau : jenny.benois-pineau@u-bordeaux.fr
Nicolas Thome : nicolas.thome@cnam.fr
Herve Le Borgne : herve.le-borgne@cea.fr

GDR-IGRV

Romain Vuillemot : romain.vuillemot@ec-lyon.fr
Romain Bourqui : romain.bourqui@u-bordeaux.fr

GDR-IA

Meghyn Bienvenu : meghyn.bienvenu@u-bordeaux.fr
Wassila Ouerdane : wassila.ouerdane@centralesupelec.fr
Sébastien Destercke: sebastien.destercke@hds.utc.fr

Club EEA

Kacem Chehdi : kacem.chehdi@univ-rennes1.fr
Mai Nguyen-Verger : mai.nguyen-verger@cyu.fr

Propositions des exposés

A envoyer aux organisateurs de la journée.

Capacité d'inscription y compris les exposants est de 90 personnes

Les inscriptions

Le nombre des places en présentiel est atteint.

Les inscriptions pour une participation en ligne sont maintenues. Toute inscription à partir du 27/02/2023 sera forcément relative à une participation en ligne.

Lien pour une participation en visio : utc-fr.zoom.us/j/81654720169

les membres du GDR-ISIS y compris le club EEA
les membres du GDR IA - 20 places
les membres du GDR IGRV - 20 places

Important : pour les collègues membres du GDR IA ou GDR IGRV il est nécessaire de s'inscrire sur le site GDR-ISIS en tant que non-membres, et INDIQUER LEUR GDR D'APPARTENANCE (GDR-IA ou GDR-IGRV).

Programme

Matinée (9h45-12h45): Conférences invitées, 30 min/présentation

9h45 accueil

10h00 - 11h00

Conférence invitée 1 : Damien Garreau (Univ. Côte d'Azur, GDR-ISIS): A Sea of Words: An In-Depth Analysis of Anchors for Text Data.
Conférence invitée 2 : Jean-Philippe Poli (CEA LIST, GDR-IA): Apprentissage de relations floues pour l'annotation sémantique d'images explicable.

11h00 - 11h15

Pause café, échanges

11h15 - 12h15

Conférence invitée 3: Kacem Chehdi (Univ. Rennes1, Club EEA): Les vrais faux échantillons d'apprentissage dans les systèmes décisionnels. Quid de l'explicabilité.
Conférence Invitée 4: Georges Quénot (LIG, GDR-ISIS): Analyse des approches basées sur des concepts pour la justification des résultats de recherche dans les collections vidéo.

12h45-14h Pause déjeuner

14h00 - 15h

Présentation de travaux de nos communautés sur les problématiques XAI : présentations lightnings de quelques minutes

15h00 - 16h30 - Session poster :

Evaluation des méthodes d'explication des décisions des réseaux profonds avec les métriques sans référence et avec référence. A Zhukov, J. Benois-Pineau, R. Giot (LABRI - Bordeaux)
Prototype Learning with Deep Transformation-Invariant Clustering and its applications. Elliot Vincent (École des Ponts - LIGM et INRIA Paris)
Apports de l'intelligence artificielle, modélisation mathématique et optimisation en imagerie. Ishak Ayad et Mai Nguyen-Verger (Cergy Paris Université)
Une contrainte faiblement supervisée sur les attributions basées sur le gradient pour une classification interprétable et la détection d'anomalies. Valentine Wargnier-Dauchelle, T. Grenier, F. Durand-Dubief, F. Cotton et Michael Sdika (CREATIS, Lyon)
Opti-CAM: Optimizing saliency maps for interpretability. Ronan Sicre (LIS - Marseille)
Fonctions de croyances dans des architectures de réseaux de neurones profonds. Philippe Xu, Zeng Tong et Thierry Denoeux (UTC Heudiasyc - Troyes)
Réseau de neurones ReLU interprétable pour la classification de signaux. Marie Guyomard , Susana Barbosa , Lionel Fillatre (Université Côte d'Azur)
An hybrid and controllable deep learning model for music source separation. Kilian Schulze-Forster, Clement S. J. Doire, Gaël Richard, Roland Badeau (Télécom Paris Tech)
EiX-GNN : Concept-level eigencentrality explainer for graph neural networks. Adrien Raison et al., XLIM, Univ. Poitiers
Explaining bodyweight estimation from face by computer vision. Nélida Mirabet-Herranz, Jean-Luc Dugelay, EURECOM, Sophia Antipolis

Résumés des contributions

Conférence invitée 1 : A Sea of Words: An In-Depth Analysis of Anchors for Text Data

Damien Garreau (Univ. Côte d'Azur, GDR-ISIS)

Anchors [Ribeiro et al. (2018)] is a post-hoc, rule-based interpretability method. For text data, it proposes to explain a decision by highlighting a small set of words (an anchor) such that the model to explain has similar outputs when they are present in a document. In this talk, I will present the first theoretical analysis of Anchors, considering that the search for the best anchor is exhaustive. I will show how one can use this analysis to gain insights on the behaviour of Anchors on simple models, including elementary if-then rules and linear classifiers.

Conférence invitée 2: Apprentissage de relations floues pour l'annotation sémantique d'images explicable.

Jean-Philippe Poli (CEA LIST, GDR-IA)

Les réseaux de neurones profonds affichent des performances de plus en plus spectaculaires, qui dépassent parfois même les performances humaines. Cependant, leur manque de transparence les rend difficilement acceptables dans certaines applications. Dans nos travaux, nous proposons une approche pour classifier des images ou annoter les objets qui la composent, tout en fournissant une explication en langage naturel. Notre approche repose sur l?apprentissage de relations spatiales floues à partir d?un nombre d?images potentiellement restreint, puis de raisonner avec ces relations extraites pour résoudre le problème de classification ou d?annotation. Ces relations étant décrites textuellement, elles sont utilisées pour produire des explications que nous avons soumis à évaluation. Afin de produire un texte convaincant, nous nous sommes inspirés des sciences cognitives. Nous illustrons notre approche dans le cadre d?annotation d?images IRM.

Conférence invitée 3: Les vrais faux échantillons d'apprentissage dans les systèmes décisionnels. Quid de l'explicabilité.

Kacem Chehdi (Univ. Rennes1, Club EEA)

L'utilisation de données de référence ou de vérité de terrain (VT) fiables comme échantillons d?apprentissage et/ou d'évaluation des algorithmes de classification est essentielle. En effet, l'exploitation d'une VT biaisée ou simplifiée attachée à des données à partitionner ne permet pas une explication rigoureuse des phénomènes physiques reflétés par ces données. Malheureusement, ce problème n'est pas toujours traité avec soin et est généralement négligé dans la littérature scientifique. De plus, les impacts des résultats de classification obtenus pour la prise ou l?aide à la décision sont négatifs. Cette négligence est incohérente si l'on considère les investissements réalisés à la fois dans le développement de capteurs sophistiqués et dans la conception d'algorithmes de classification. Pour une démarche scientifique cohérente, toute VT doit être validée selon un protocole rigoureux avant d'être utilisée, ce qui n'est malheureusement pas toujours le cas. L'utilisation d?une VT biaisée ou toute transformation sur les données ne respectant leur nature physique ne peuvent apporter que de la confusion. La preuve de ce problème est fournie à l'aide d?images hyperspectrales qui, à tort, sont fréquemment utilisées dans des processus de classification pour illustrer la fiabilité de certains algorithmes.

Références :

1. Xu, R.; Wunsch, D. Survey of clustering algorithms. IEEE Trans. on Neur. Net. 2005, 16, 645?678.

2. Chehdi, K.; Cariou, C. The true false ground truths: What interest? In Proceedings of SPIE 10004, Image and Signal Processing for Remote Sensing XXII, Edinburgh, United Kingdom, 26?29 September 2016; pp. 1?16.

3. Chehdi, K.; Cariou, C. Learning or assessment of classification algorithms relying on biased ground truth data: what interest? J. App. Rem. Sens. 2019, 13, 1?26.

Conférence Invitée 4: Analyse des approches basées sur des concepts pour la justification des résultats de recherche dans les collections vidéo.

Georges Quénot (LIG, GDR-ISIS)

In this work, we explore and improve the actual causality relations in visual explanations proposed by interpretable video retrieval systems. We focus on the causal relation between the detection scores of concept (or tag) classifiers and the ranking decisions based on these scores, paving the way for these tags to be used in the visual explanations. We first define a measure for quantifying a causality on a set of tags, typically those involved in visual explanations. We use this measure for evaluating the actual causality in the explanations generated using a recent interpretable video retrieval system (Dong e al., PAMI 2022), which we find to be quite low. We finally propose and evaluate several improvements for significantly increasing this causality without sacrificing the retrieval accuracy of the system.

Exposés de l'après-midi

1. Évaluation des méthodes d'explication des décisions des réseaux profonds avec les métriques sans référence et avec référence. A Zhukov, J. Benois-Pineau, R. Giot (LABRI - Bordeaux)

Les méthodes les plus populaires dans le paradigme de l'apprentissage automatique sont principalement des boîtes noires. C'est pourquoi il est urgent d'expliquer les décisions de l'IA. Bien que des outils d'explication dédiés ont été massivement développés, l'évaluation de leur qualité reste une question de recherche ouverte. Nous généralisons les méthodologies d'évaluation des explicateurs post-hoc des décisions des CNNs dans les tâches de classification visuelle avec des métriques basées sur la référence et sans référence. Nous les appliquons à nos outils précédemment développés (FEM1, MLFEM), et au populaire Grad-CAM. Les métriques basées sur la référence sont le coefficient de corrélation de Pearson et la similarité calculée entre la carte d'explication et sa vérité de base représentée par une carte de densité de fixation du regard obtenue par une expérience psychovisuelle. Comme métrique sans référence, nous utilisons la métrique de stabilité, proposée par Alvarez-Melis et Jaakkola. Nous étudions son comportement, le consensus avec les métriques basées sur la référence et montrons que dans le cas de plusieurs types de dégradation sur les images d'entrée, cette métrique est en accord avec celles basées sur la référence. Par conséquent, elle peut être utilisée pour l'évaluation de la qualité d'explications lorsque la vérité terrain n'est pas disponible.

2. Prototype Learning with Deep Transformation-Invariant Clustering and its applications. Elliot VINCENT (École des Ponts - LIGM et INRIA Paris)

Explaining large-scale datasets with a set of few meaningful elemental structures is the key idea of prototype learning. If well learned and equipped with proper transformations, prototypes can faithfully reconstruct a given input. The Deep Transformation-Invariant Clustering [1] framework optimizes a reconstruction loss to learn prototypes in the input space: each input is associated with the prototypes or the set of prototypes leading to the best reconstruction. Prototypes can be sprites for images [2], spectrograms for audio samples [4], point clouds for 3D data [3] or temporal patterns for time series [5]. The resulting models can be used for downstream tasks such as classification, few-shot segmentation or multi-object instance discovery while remaining highly interpretable. In this talk, I will present 3 use cases of prototype learning: object discovery in the wild with images [2], audio identification [4] and agricultural satellite images time series classification [5].

3. Apports de l'intelligence artificielle, modélisation mathématique et optimisation en imagerie. Ishak Ayad et Mai Nguyen-Verger (Cergy Paris Université)

La tomographie assistée par ordinateur repose sur la collecte de données à l'aide de rayons X transmis, pris sous différents angles. Ensuite, à partir de cet ensemble de données, la technique de reconstruction d'image la plus connue est la rétroprojection filtrée (FBP) qui fonctionne correctement avec un ensemble complet de données, c'est-à-dire des données collectées sur un domaine angulaire = [0°, 180°[ avec un pas d'échantillonnage. Néanmoins, dans certaines situations pratiques, ces conditions ne peuvent pas être respectées, à savoir le domaine angulaire est tronqué et/ou éparse. Dans de tels scénarios, les reconstructions issues de l'algorithme FBP contiendront de sévères artefacts et distorsions. Ces problèmes de données manquantes ont d'abord été abordés avec des techniques d'optimisation, telles que la régularisation de Tikhonov, etc. Récemment, avec le succès de l'apprentissage profond, la reconstruction d'images CT à données limitées a atteint un autre niveau, en particulier des réseaux neuronaux profonds hybrides Hu et al. (2021); Zhang et al. (2020) combinant les informations des domaines de l'image et des données. Nous proposons ici un réseau de neurones de type adversarial neural network (GAN) appelée Rad2Pix. Ce réseau est capable de reconstruire des objets à partir de données éparses ou à angle limité, ainsi que dans des scénarios où nous sommes confrontés aux deux problèmes en même temps (Fig. 2, Tab. 1). Le réseau proposé (voir Fig. 1) est une architecture patchGAN Pix2Ppix Isola, Zhu, Zhou, and Efros (2017) où le générateur (G) est un V-net et le discriminateur (D) est un patchGAN. La particularité de cette architecture réside dans sa capacité à mettre en correspondance les données (domaine de Radon) avec le domaine de l?image à différentes échelles pour extraire les caractéristiques importantes. Cette connexion est assurée par les blocs de skip connection du V-Net, constitué de couches fully connected layers. le succès de ce réseau est expliqué, en partie, grâce à l'optimisation au sens des moindres carrés réalisée par les blocs de reconstruction (en couleurs rose et rouge dans la Fig. 1) Wurfl et al. (2018). Le discriminateur PatchGAN agit également sur les deux domaines.

4. Une contrainte faiblement supervisée sur les attributions basées sur le gradient pour une classification interprétable et la détection d'anomalies. Valentine Wargnier-Dauchelle, T. Grenier, F. Durand-Dubief, F. Cotton et Michael Sdika (CREATIS, Lyon)

Le manque d'interprétabilité de l'apprentissage profond freine sa diffusion en clinique où les méthodes doivent être à la fois performantes et transparentes. Or du fait de leur grande capacité, la décision d'un réseau de neurones peut être guidée par des biais des bases d'entrainement plutôt que les caractéristiques cliniques. Nous proposons de contraindre un réseau de classification d'images saines vs pathologiques pour que sa décision soit basée sur des structures radiologiques pertinentes avec pour seule annotation le label de l'image. Pour cela, nous utilisons les cartes d'attributions de type gradient comme indicateur de la décision du réseau et nous contraignons ces dernières pour que chaque voxel des images saines guide la décision du réseau vers la classe saine. Chez les patients, cela révèle les structures pathologiques permettant une segmentation non supervisée. À travers une analyse des méthodes d'attributions par gradient, nous avons aussi montré que l'utilisation du gradient pour la contrainte est équivalente à l'utilisation d'Expected Gradient[1] tout en étant moins coûteuse en calcul. En outre, nous avons proposé une contrainte combinant Expected Gradient[2] et Integrated Gradient[3] rendant le modèle robuste au choix d'attribution à l'inférence. Notre proposition a été évaluée sur deux pathologies cérébrales sur IRM : les tumeurs et la sclérose en plaques (SEP). Notre contrainte permet une classification plus interprétable et pertinente avec une décision basée sur la pathologie. Elle permet également de surpasser l'état de l'art en détection d'anomalies avec, par exemple, un gain de 15 points de Dice sur la segmentation des lésions SEP .

5. Opti-CAM: Optimizing saliency maps for interpretability. Ronan Sicre (LIS - Marseille)

Methods based on Class Activation Maps (CAM) provide a simple mechanism to interpret predictions of convolutional neural networks by using linear combinations of feature maps as saliency maps. By contrast, masking-based methods optimize a saliency map directly in the image space or learn it by training another network on additional data. In this work we introduce Opti-CAM, combining ideas from CAM-based and masking-based approaches. Our saliency map is a linear combination of feature maps, where weights are optimized per image such that the logit of the masked image for a given class is maximized. We also fix a fundamental flaw in two of the most common evaluation metrics of attribution methods. On several datasets, Opti-CAM largely outperforms other CAM-based approaches according to the most relevant classification metrics. We provide empirical evidence supporting that localization and classifier interpretability are not necessarily aligned.

6. Fonctions de croyances dans des architectures de réseaux de neurones profonds. Philippe Xu, Zeng Tong et Thierry Denoeux (UTC Heudiasyc - Troyes)

Le principe général se repose sur l'apprentissage de prototypes et l'utilisation de fonctions de croyances au niveau de la couche de décision d'un réseau. Cela permet notamment de mieux représenter les incertitudes et une meilleure interprétation des décisions avec intrinsèquement la possibilité de gérer : la détection de nouvelles classes, de données aberrantes, des annotations et prédictions imprécises ainsi que de la fusion de plusieurs réseaux. Ces travaux ont été menés avec Zeng Tong et Thierry Denoeux et ont notamment été appliqués sur des problèmes de classification et segmentation d'images.

7. Réseau de neurones ReLU interprétable pour la classification de signaux. Marie Guyomard , Susana Barbosa , Lionel Fillatre (Université Côte d'Azur)

Ces dernières années, l'utilisation des réseaux de neurones (NNs) est devenue incontournable pour les tâches de classification non linéaire dans de nombreux domaines d'application [1]. Néanmoins, l'extrême difficulté d'interprétation des résultats, mais aussi l'incertitude quant à la convergence et donc à l'unicité de leurs estimations vaut souvent aux NNs la qualification de « Boîte Noire » [2]. Nous proposons le modèle SATURNN, acronyme de Splines Approximation Through Understandable ReLU Neral Network, pour s'affranchir de ces deux limites lorsque le NN a une couche de neurones cachée et qu'il utilise la fonction ReLU.

8. An hybrid and controllable deep learning model for music source separation. Kilian Schulze-Forster, Clement S. J. Doire, Gaël Richard, Roland Badeau (Télécom Paris Tech)

Supervised deep learning approaches to underdetermined audio source separation achieve state-of-the-art performance but require a dataset of mixtures along with their corresponding isolated source signals. Such datasets can be extremely costly to obtain for musical mixtures. This raises a need for unsupervised methods. We propose a novel unsupervised model-based (or hybrid) deep learning approach to musical source separation [1]. Each source is modelled with a differentiable parametric source-filter model. Integrating domain knowledge in the form of source models into a data-driven method leads to high data efficiency: the proposed approach achieves good separation quality even when trained on less than three minutes of audio and allows having an interpretable and highly controllable model.

9. EiX-GNN : Concept-level eigencentrality explainer for graph neural networks. Adrien Raison et al., XLIM, Univ. Poitiers

In the literature, explaining is a human knowledge transfer process regarding a phenomenon between an explainer and an explainee. We propose EiX-GNN (Eigencentrality eXplainer for Graph Neural Networks) a new powerful method for explaining graph neural networks that encodes computationally this social explainer-to-explainee dependence underlying in the explanation process. To handle this dependency, we introduce the notion of explainee concept assimibility which allows explainer to adapt its explanation to explainee background or expectation. We lead a qualitative study to illustrate our explainee concept assimibility notion on real-world data as well as a qualitative study that compares, according to objective metrics established in the literature, fairness and compactness of our method with respect to performing state-of-the-art methods. It turns out that our method achieves strong results in both aspects.

10. Explaining bodyweight estimation from face by computer vision
Nélida Mirabet-Herranz, Jean-Luc Dugelay, EURECOM, Sophia Antipolis

Weight is a soft biometric trait which estimation is useful in numerous health related applications such as remote estimation from a health professional or at-home daily monitoring. In scenarios when a scale is unavailable or the subject is unable to cooperate, i.e. road accidents, estimating a person's weight from face appearance allows for a contactless measurement. In our work, we define an optimal transfer learning protocol for a ResNet50 architecture obtaining better performances than the state-of-the-art thus moving one step forward in closing the gap between remote weight estimation and physical devices. We also demonstrate that gender-splitting, image cropping and hair occlusion play an important role in weight estimation which might not necessarily be the case in face recognition. We use up to date explainability tools to illustrate and validate our assumptions. We conduct extensive simulations on the most popular publicly available face dataset annotated by weight to ensure a fair comparison with other approaches and we aim to overcome its flaws by presenting our self-collected database composed of 400 new images.

Identification