Apprentissage de représentation : méthodologies et applications

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

40 personnes membres du GdR ISIS, et 30 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 100 personnes.

Annonce

La reunion est complète et nous avons atteint la capacité limite de la salle, depuis quelques semaines. Malheureusement, nous n'avons pas pu trouver de salles à plus forte capacité d'accueil au sein de l'UPMC.

Ainsi, nous demandons aux personnes non-inscrites de s'abstenir de venir pour des raisons de place et de sécurité. Etant donné le succès, nous envisageons de donner une suite à cette reunion et pour celle la nous prevoirons grand!

Rémi et Alain

Suite au succès de la première journée sur l'apprentissage de la representation avec applications en signal, nous organisons une 2ème édition sur le thème : deep learning, dictionary learning et autres variantes d'apprentissage de représentation.

Le programme de la journée comprendra des conférenciers invités. Le programme inclura également des communications.

L'apprentissage de représentation est devenu ces dernières années une étape nécessaire à beaucoup de problèmes d'apprentissage statistique allant des problèmes de vision par ordinateurs jusqu'au traitement du langage naturel. Les développement récents ont montré l'impact qu'une telle étape peut avoir en terme de performance de prédiction et d'interprétabilité. Il est donc devenu nécessaire d'apprendre cette représentation à partir des données au lieu de la fixer a priori. La question de la découverte automatique de la représentation optimale pour une tâche donnée (débruitage, classification supervisée, régression, clustering ) est donc maintenant plus pertinente que jamais pour la communauté de l'apprentissage statistique et du traitement du signal/image.

Cette journée vise à présenter un panorama large des méthodes récentes d'apprentissage de représentation allant du pré-entrainement pour un réseau de neurone profond en passant par l'apprentissage de métriques, l'apprentissage de dictionnaires ou de sous-espace et en allant jusqu'aux méthodes parcimonieuses et compressed sensing pour l'extraction de caractéristique.

La journée aura lieu le 6 octobre dans la salle 105 au 1er étage couloir 25-26 de la tour 26, du LIP6, à l'UPMC, Jussieu.

Les orateurs invités seront :

Matthieu Cord
Pierre Chainais
Vincent Guigue
Frédéric Precioso

Si vous souhaitez présenter vos travaux, merci d'envoyer vos propositions pour le 15 septembre 2016 au plus tard (titre, auteurs, affiliation, résumé de 15 lignes) aux organisateurs :

Alain Rakotomamonjy : alain.rakoto@insa-rouen.fr
Rémi Flamary : remi.flamary@unice.fr

Programme

9h25 - Introduction

9h30 - 10h20 M. Cord : Deep learning and weak supervision for visual recognition.

10h20 - 10h40 M. Valais : Optimisation de dictionnaires structurés en arbres de convolutions pour la représentation parcimonieuse d'images.

10h40 - 11h00 F. Malgouyres : On the identifiability and stable recovery of deep/multi-layer structured matrix factorization.

11h00 - 11h15 Pause.

11h15 - 12h05 P. Chainais : Buffet indien pour l'apprentissage de dictionnaire : algorithmes et applications.

12h05 - 12h25 A. Giremus, J-F. Giovanelli : Bayesian Inference for Biomarker Discovery in Proteomics.

Pause déjeuner.

14h00 - 14h50 F.Precioso : Active Learning strategies for CNN.

14h50 - 15h10 Z. Alaverdyan : Automatic extraction of representations for outlier detection in medical imaging.

15h10 - 15h30 S. Chang Lang : Représentations parcimonieuses bidirectionnelles pour la ré-identification de personnes à partir de multiples images.

15h30 - 15h45 Pause.

15h45 - 16h35 V. Guigue : Représentations latentes dans les systèmes de recommandation : de la personnalisation au raisonnement.

16h35 - 16h55 H. Bredin : TristouNet : Triplet Loss for Speaker Turn Embedding.

Résumés des contributions

Deep learning and weak supervision for visual recognition

Matthieu Cord - (LIP6 - UPMC)

Deep learning and Convolutional Neural Networks (CNN) are state of the art for many visual recognition tasks, e.g. image classification, or object detection. To better identify or localize objects, bounding box annotations are often used. Those rich annotations are costly to get, motivating the development of Weakly Supervised Learning (WSL) models. We discuss several strategies to automatically select relevant image regions from weak annotations (e.g. image-level labels) in deep CNN. We introduce our architecture WELDON for WEakly supervised Learning of Deep cOnvolutional neural Networks. Our deep learning framework, leveraging recent improvements on the Multiple Instance Learning paradigm, is validated on several recognition tasks.

Optimisation de dictionnaires structurés en arbres de convolutions pour la représentation parcimonieuse d'images

Maël Valais (IRIT, INP-ENSEEIHT), François Malgouyres (IMT, Univ. Toulouse III - Paul Sabatier), Jean-Yves Tourneret (IRIT, INP-ENSEEIHT), Herwig Wendt (CNRS, INP-ENSEEIHT)

Dans cette présentation, nous présenterons un algorithme pour l'optimisation de transformées rapides basées sur un arbre de convolutions. Issu de l'algorithme OMP (Orthogonal Matching Pursuit), cet algorithme améliore l'algorithme existant PALMTREE [2] en apprenant les supports (au lieu de les fixer à priori). La phase d'ajout au support est, comme pour OMP, basée sur la valeur maximale du gradient qui donne une assez bonne indication du meilleur élément à ajouter. Ce nouvel algorithme, OMP-PALMTREE, constitue l'étape de "mise à jour du dictionnaire" dans un algorithme standard d'apprentissage de dictionnaire et devra être associé à une étape de "codage parcimonieux" pour être utilisable dans des applications comme le débruitage ou la reconnaissance d'images. Grâce à la structure introduite par le modèle d'arbre de convolutions, les dictionnaires sont plus rapides à apprendre (complexité linéaire en fonction de la taille de l'image) que des dictionnaire appris en utilisant le produit matrice-vecteur traditionnel (complexité quadratique).

On the identifiability and stable recovery of deep/multi-layer structured matrix factorization

Francois Malgouyres (IMT)

We study a deep/multi-layer structured matrix factorization problem. It approximates a given matrix by the product of $K$ matrices (called factors). Each factor is obtained by applying a fixed linear operator to a short vector of parameters (thus the name "structured"). We call the model deep or multi-layer because the number of factors is not limited. In the practical situations we have in mind, we typically have $K=10$ or $20$.

We provide necessary and sufficient conditions for the identifiability of the factors (up to a scale rearrangement). We also provide a sufficient condition (analogue to the Null Space Property but adapted to the deep nature of the problem) that guarantees that the recovery of the factors is stable.

Buffet indien pour l'apprentissage de dictionnaire : algorithmes et applications

P. Chainais - (CRISTAL Centrale Lille)

L'apprentissage de dictionnaire pour la représentation parcimonieuse est maintenant bien connu dans le cadre de la résolution de problèmes inverses en traitement d'image. La plupart des approches s'appuient sur des méthodes d'optimisation. Généralement, le nombre d'atomes du dictionnaire est fixé à l'avance. Nous proposons une méthode bayésienne non paramétrique appelée IBP-DL qui apprend automatiquement un dictionnaire de taille adaptée grâce à un modèle de type processus du Buffet Indien. Les niveaux de bruit et de parcimonie sont aussi estimés, de sorte que pratiquement aucun réglage des paramètres n'est nécessaire. Nous décrivons les algorithmes d'échantillonnage de Gibbs et leur version accélérée permettant de définir des estimateurs maximum a posteriori du dictionnaire. Les résultats comparatifs de débruitage, inpainting et échantillonnage compressé illustrent la pertinence de l'approche proposée.

Bayesian Inference for Biomarker Discovery in Proteomics

Jean-François Giovannelli (IMS, U. Bordeaux), Audrey Giremus (IMS, U. Bordeaux)

The presented work addresses the question of biomarker discovery in proteomics. More precisely, for a set of individuals, a status (Healthy or Pathological) and the concentrations for a given list of proteins are available. The tackled problem is to extract a short sub-list of protein, namely the biomarker, that enables to model the status. The work presents two cases. The first one accounts for biological variabilities and it is founded on natural models (Gaussian for the concentrations and Bernoulli for the status) and does not impose constraints in terms of a regression model. The second one includes in addition technological variabilities that may significantly impact observed concentrations. They are respectively referred to as noiseless and noisy models. The developed selection strategy for both models is optimal in the sense that it minimizes a global mean error (misdetection and false identification). It is developed in a Bayesian framework and practically it amounts to selecting the model with the higher posterior probability. The key difficulty is to calculate these probabilities since they are based on the evidences that require marginalization. The key point of the work is that: for the noiseless case, we demonstrate the analytical solutions and for the noisy case, we propose an approximated solution. The methods are numerically assessed and compared to two existing methods on synthetic and clinical data.

Active Learning strategies for CNN

F. Precioso - (I3S, UNS)

We will see how considering now standard optimization tricks, such as dropout, under the light of active learning we can build a CNN which reach state-of-art results with less than 25 % of the training set. Some other possible active learning strategies for CNN will be further discussed.

Automatic extraction of representations for outlier detection in medical imaging

Zaruhi Alaverdyan (CREATIS, U. Lyon), Carole Lartizien (CREATIS, U. Lyon)

Computer aided detection (CAD) systems are designed to assist clinicians in their diagnosis by highlighting abnormal regions in an image. One way of doing so consists in performing a binary classification at the voxel level where the decision model is learned on a series of feature vectors selected from normal and pathological locations on patient scans. However, in many pathologiesincluding epilepsy, lesions can be located almost anywhere and have various sizes, shapes and textures.Therefore, a huge amount of annotated samples would be needed to accurately sample this variability,which is a major issue.To bypass these obstacles, we proposed to treat this lesion localization task as an outlier detectionproblem. The clinical application consisted in detecting abnormalities in magnetic resonance images(MRIs) of patients suffering from intractable epilepsy. The one-class SVM algorithm was exploited at a voxel level using manually extracted features from images of healthy patients only [El Azami, Plos One2016].Our next goal is to replace the hand-crafted features with representations learnt with stacked autoencoders. The first architecture that we proposed is a two-layer stacked denoising autoencoder that is trained on overlapping patches extracted from the original images by optimizing the cross-entropy between the input and its reconstruction. The representation of the middle layer serves as a feature vector for the central voxel of each input patch which is then fed into a one-class classifier at voxel level.Preliminary results will be presented during the workshop as well as perspectives including the integration of a task-specific loss function in

Représentations parcimonieuses bidirectionnelles pour la ré-identification de personnes à partir de multiples images

Solène CHAN-LANG ( CEA LIST), Quoc Cuong PHAM (CEA LIST), Catherine ACHARD (UPMC ISIR)

Les méthodes parcimonieuses ont beaucoup été exploitées pour la reconnaissance faciale et quelques peu pour la ré-identification de personnes. De nombreuses variantes ont été proposées. Certaines approches font intervenir davantage de termes de pénalisations, d'autres ajoutent des termes d'erreurs dans la fonction à optimiser, ou encore apprennent des dictionnaires.

Nous proposons une méthode robuste pour la ré-identification de personnes que nous avons nommé représentations parcimonieuses bidirectionelles. L'idée de rendre plus fiables les correspondances entre personnes tests et personnes connues en considérant le problème non seulement du point de vue des éléments tests, mais aussi des éléments connus. Pour cela, on s'appuie sur la représentation parcimonieuse des éléments tests avec les éléments connus, mais aussi sur les représentations parcimonieuses des éléments connus avec les éléments tests. Il s'agit de chercher dans la galerie, la personne la plus similaire à l'élément inconnu, mais aussi de vérifier que l'élément inconnu est en effet proche de cette identité galerie. Les résultats, sur plusieurs bases de données, valident l'approche proposée et montrent l'apport de la symétrie sur la ré-identification.

Représentations latentes dans les systèmes de recommandation : de la personnalisation au raisonnement

Vincent Guigue - (LIP6 UPMC)

Les méthodes à variables latentes ont été utilisées dans différentes applications avec succès: l'analyse thématique de document (PLSA, LDA, Word2Vec...), la personnalisation des systèmes de recommandation (Collaborative Filtering & NMF) et plus récemment les systèmes de raisonnements. Cette évolution ouvre de nombreuses perspectives applicatives: la construction de profils unifiés exploitant à la fois des données de contenus et des données de feedback permet d'affiner la compréhension des usagers. L'essor des réseaux de neurones récurrents et des méthodes génératives en générales ouvre aussi la voie à l'explication des recommandations.

Nous proposons dans cet exposé d'explorer les techniques récentes d'apprentissage de représentations qui permettent de fusionner différentes sources d'informations hétérogènes. Le principal point abordé concerne la fusion des données textuelles avec les feedbacks utilisateurs pour la conception de système de recommandation hybrides. Nous montrons que ces systèmes peuvent être utilisés pour générer du texte, dans le but d'expliquer l'intérêt de la recommandation. Nous présentons enfin brièvement les systèmes de raisonnement dans les espaces latents qui proposent déjà un cadre unifié où la recommandation peut être vue comme une relation, parmi d'autres.

TristouNet: Triplet Loss for Speaker Turn Embedding

Hervé Bredin - (LIMSI - U Paris Sud)

TristouNet is a neural network architecture based on Long Short-Term Memory recurrent networks, meant to project speech sequences into a fixed-dimensional euclidean space. Thanks to the triplet loss paradigm used for training, the resulting sequence embeddings can be compared directly with the euclidean distance, for speaker comparison purposes. Experiments on short (between 500ms and 5s) speech turn comparison and speaker change detection show that TristouNet brings significant improvements over the current state-of-the-art techniques for both tasks.

Identification