Apprentissage et Parcimonie

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

41 personnes membres du GdR ISIS, et 1 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 80 personnes.

Annonce

Les représentations parcimonieuses des signaux et des images reposent sur l'utilisation de dictionnaires redondants de formes d'ondes typiques de certaines classes de signaux ou d'images. Leur utilisation a connu un essor considérable ces dernières années notamment dans les domaines de la restauration, de la compression, de la séparation de sources et des problèmes inverses. Il existe de forts liens, notamment algorithmiques, entre ces modèles parcimonieux et la théorie statistique de l'apprentissage et de la sélection de modèle, et ses applications en apprentissage automatique.

L'objectif global de la journée est de favoriser la rencontre entre les communautés françaises du traitement du signal / de l'apprentissage statistique qui participent de concert au développement rapide du concept de parcimonie et à ses applications, depuis les fondement statistiques et théoriques jusqu'aux dernières avancées algorithmiques.

La journée sera organisée autour d'exposés invités qui permettront de dessiner l'état de l'art du domaine et des défis à venir.

Programme

Organisateurs: Rémi Gribonval et Francis Bach.

09h30-10h10 - Stéphane Mallat, Classification with Sparse or Invariant Representations ?
10h10-10h50 - Odalric Maillard, Least-Squares regression with random spaces

10h50-11h10 Pause café
11h10-11h50 - Matthieu Kowalski, Parcimonie et structures pour les décompositions des signaux dans des dictionnaires temps-fréquence
11h50-12h30 - Guillaume Obozinski, Parcimonie structurée et apprentissage de dictionnaire

14h00-14h40 - Camille Couprie, Algorithmes parallèles proximaux et applications
14h40-15h20 - Erwan Lepennec, Estimation de densité par méthode de Dantzig à pénalisation minimale

15h20-15h40 Pause café
15h40-16h20 - Cédric Févotte, Maximum marginal likelihood estimation for nonnegative dictionary learning
16h20-17h00 - Alexandre Tsybakov, Estimation de matrices de faible rang en grande dimension

Résumés des contributions

Classification with Sparse or Invariant Representations?

Stephane Mallat (CMAP, Ecole Polytechnique)

Signal classes are usually invariant to groups of operators such as translations or scalings, and to larger Lie groups of deformations.
Invariants and dimensionality reduction play major roles for classification, as opposed to sparse complete representations. Constructing invariants while keeping discriminant information deeply constraints the representation. We introduce a non-linear invariant representation, that reminds quantum scattering. It is implemented through the architecture of a deep neural network, but learning is needed at a single layer, and computed with O(N) operations.
State of the art results are shown for image classification of deformed patterns and random textures.
Part of this work is described in the preprint http://arxiv.org/abs/1011.3023, joint with Joan Bruna.

Linear regression in random spaces

Odalric-Ambrym Maillard (Equipe SEQUEL, INRIA Lille - Nord Europe)

I will present recent works on least-squares regression using randomly generated subspaces.
In this approach, the regression function is the empirical risk minimizer in a low dimensional randomly generated subspace of a high (possibly infinite) dimensional function space.
This approach can be seen as an alternative to usual penalization techniques. Approximation error and excess risk bounds are derived and the issue of numerical complexity will be discussed. This is joint work with Rémi Munos and is described in the papers:

Compressed Least-Squares Regression, NIPS 2009, http://hal.inria.fr/docs/00/42/90/35/PDF/cls_nips.pdf
Scrambled Objects for Least-Squares Regression, NIPS 2010, http://hal.inria.fr/docs/00/48/30/17/PDF/blsr.pdf

Parcimonie et structures pour les décompositions des signaux dans des dictionnaires temps-fréquence

Matthieu Kowalski (L2S, Université Paris-Sud 11)

Les décompositions parcimonieuses et structurées des signaux dans des dictionnaires de formes d'ondes peuvent s'obtenir par un modèle explicite dans le domaine des coefficients.
On s'intéresse dans une première partie aux approches variationnelles, où les normes mixtes permettent d'introduire des couplages sur les coefficients préalablement organisés en groupes. L'optimisation des fonctionnelles s'effectue alors par des algorithmes de seuillage itératifs. En modifiant directement les opérateurs de seuillage, on peut introduire plus de flexibilité sur le couplage des coefficients, en particulier grâce à un Group-Lasso fenêtré.
Dans une seconde partie, on regardera des modèles de type Bernoulli-Gaussien, éventuellement multi-varié, pour la décomposition hybrides des signaux (aussi appelée décomposition en composantes morphologiques). Une telle approche à l'avantage de fournir un seuillage adaptatif des coefficients, et ainsi de s'affranchir des réglages parfois fastidieux d'hyper-paramètres intervenant dans les approches variationnelles.

Parcimonie structurée et apprentissage de dictionnaire

Guillaume Obozinski (Equipe WILLOW, INRIA - ENS Paris)

La parcimonie structurée recouvre les modèles parcimonieux pour lesquels, en plus d'une contrainte sur le nombre de variables ou de paramètres, on dispose également d'un a priori sur la forme ou la structure de l'ensemble des paramêtres non nuls - ou "support".
Cet exposé considére des méthodes de régularisation convexe qui permettent d'obtenir des estimateurs parcimonieux structurés et s'intéresse à leur application à l'apprentissage de dictionnaire, soit pour contraindre le support des élements du dictionnaire, soit pour structurer le dictionnaire dans son ensemble.
Plusieurs applications seront présentées notamment en vision, traitement d'image et modélisation de bases de données textuelles.

Algorithmes parallèles proximaux et applications

Camille Couprie (Laboratoire d'Informatique Gaspard Monge, Université Paris-Est)
Auteurs : Camille Couprie, Jean-Christophe Pesquet, Nelly Pustelnik et Hugues Talbot

Dans cet exposé, nous énoncerons quelques résultats récents sur les algorithmes proximaux parallèles et nous nous intéresserons à leur application pour la résolution de problèmes d'optimisation en imagerie et en vision par ordinateur. Nous montrerons que ces algorithmes peuvent constituer des alternatives intéressantes aux méthodes classiques d'optimisation (méthodes de point intérieur notamment) quand le nombre de données est grand et que des fonctions objectifs non différentiables interviennent, comme c'est souvent le cas dans les modèles parcimonieux.

Estimation de densité par pénalisation L1 minimale

Erwan Lepennec (Equipe SELECT, INRIA Saclay - Université Paris-Sud)
en collaboration avec K. Bertin (Univ. Valparaiso) et V. Rivoirard (Univ. Paris Dauphine).

Dans cet exposé, notre but sera de construire des estimateurs d'une densité inconnue comme combinaisons linéaires des fonctions d'un dictionnaire donné. Inspirée de l'approche de Candès et Tao, la résolution de ce problème s'appuiera sur des algorithmes de minimisation l1 sous des contraintes de type Danzig. Ces dernières seront construites à l'aide d'inégalités de concentration fines. Nous établirons des inégalités oracle sous des hypothèses de cohérence du dictionnaire. Ces résultats théoriques seront ensuite étendus aux estimateurs Lasso naturellement associés à notre procédure. La calibration de ces procédures sera également étudiée. Enfin, nous décrirons les résultats numériques de ces algorithmes.

Maximum marginal likelihood estimation for nonnegative dictionary learning

Onur Dikmen & Cédric Févotte - CNRS LTCI; Télécom ParisTech

We describe an alternative to standard nonnegative matrix factorisation (NMF) for nonnegative dictionary learning, i.e., the task of learning a dictionary with nonnegative values from nonnegative data, under the assumption of nonnegative expansion coefficients.
Popular cost functions in NMF include the Kullback-Leibler and Itakura-Saito divergences, which underlie Poisson and Gaussian statistical composite models. From this statistical viewpoint NMF can be considered the maximisation of the joint likelihood of the dictionary and the expansion coefficients. This approach lacks optimality because the number of parameters (which include the expansion coefficients) grows with the number of observations.
In this paper we describe variational Bayes and Monte-Carlo EM algorithms for optimisation of the marginal likelihood, i.e., the likelihood of the dictionary where the expansion coefficients have been integrated out (given suitable priors). We compare the output of maximum joint likelihood estimation (i.e, standard NMF) and maximum marginal likelihood estimation (MMLE) on real and synthetical datasets. The MMLE approach is shown to embed automatic model order selection, akin to automatic relevance determination, and to yield better results on face recognition and music decomposition tasks.

Estimation de matrices de faible rang en grande dimension

Alexandre Tsybakov (Laboratoire de Statistiques, CREST)

This talk considers the model of trace regression where one observes linear combinations of entries of an unknown matrix corrupted by noise. We are particularly interested in high-dimensional setting, i.e., the dimension of the matrix can be much larger than the sample size, whereas we assume that its rank is small. This talk discusses the estimation of the underlying matrix under the low rank assumption, with a particular emphasis on matrix completion. We derive non-asymptotic upper bounds for the prediction and estimation risks of the suggested methods and show that some of them are optimal.

Identification