Avancées récentes en traitement du signal audio

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

22 personnes membres du GdR ISIS, et 32 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 75 personnes.

Annonce

Le GdR ISIS organise une journée consacrée aux avancées récentes en traitement du signal audio, et en particulier aux thèmes suivants:

- la séparation de sources et les décompositions adaptatives,
- la classification (par similarité musicale, parole/musique)
- la transcription musicale,
- l'acquisition compressée,
- l'analyse audio-visuelle,
- la synthèse.

Afin d'intéresser un large public, et en particulier un public non familier du traitement du signal audio, les orateurs prendront soin de bien présenter les problématiques auxquelles ils s'intéressent, ainsi que l'état de l'art afférent.

Inscription :

http://gdr-isis.fr/index.php?page=inscription-a-une-reunion&idreunion=177

Organisation / contact :
Valentin Emiya (LIF, Marseille), prenom.nom@lif.univ-mrs.fr
Cédric Févotte (LTCI, Paris), nom@telecom-paristech.fr

À NOTER (autres événements en rapport avec le thème) :
Journée Science et Musique le samedi 13 octobre 2012 à Rennes (http://jsm2012.irisa.fr/) et son Prix Jeune Chercheur (http://jsm2012.irisa.fr/toppage.php?page=prixjc)
Journées Jeunes Chercheurs en Audition, Acoustique musicale et Signal audio (JJCAAS) du 5 au 7 décembre 2012 à Marseille (http://www.jjcaas2012.cnrs-mrs.fr/)

Programme

09h45 - 10h00 : Ouverture

10h00 - 10h30 : Comment échantillonner un champ acoustique ?
Laurent Daudet (Institut Langevin, Paris)

10h30 - 11h00 : *-lasso therapy : parcimonie et structures, application à la séparation de sources et au débruitage
Matthieu Kowalski (LSS, Gif-sur-Yvette)

11h00 - 11h30 : Audio Inpainting
Valentin Emiya (LIF, Marseille)

11h30 - 11h45 : Pause

11h45 - 12h15 : Reconnaissance d'accords basée sur des gabarits théoriques
Laurent Oudre (CMLA, Cachan)

12h15 - 12h45 : Similarité pour l'audio : de la musique aux sons environnementaux
Mathieu Lagrange (IRCAM, Paris & IRCCYN, Nantes)

12h45 - 14h15 : Déjeuner

14h15 - 15h00 : DReaM -- Séparation de sources informée pour l'écoute active de la musique
Sylvain Marchand (Lab-STICC, Brest) & Antoine Liutkus (LTCI, Paris)

15h00 - 15h30 : Comment interfacer séparation de sources et classification audio ?
Emmanuel Vincent (INRIA Rennes - Bretagne Atlantique)

15h30 - 16h00 : Apprentissage de variété acoustique pour la localisation et la séparation bayesiennes de sources sonores
Antoine Deleforge (INRIA Rhône-Alpes)

16h00 - 16h15 : Pause

16h15 - 16h45 : Contrôle perceptif / intuitif de la synthèse des sons
Mitsuko Aramaki (LMA, Marseille)

16h45 - 17h15 : Fusion multi-modale pour l'identification non-supervisée du locuteur dans les émissions télévisées
Hervé Bredin (LIMSI, Orsay)

Résumés des contributions

Comment échantillonner un champ acoustique ?
Laurent Daudet (Institut Langevin, Paris)

Il existe un certain nombre d'applications où l'on souhaite connaître un champ acoustique sur l'ensemble d'un domaine spatial, alors que dans la plupart des cas, on peut uniquement effectuer des mesures "ponctuelles" (cas du microphone). Même quand les sources sont peu nombreuses, ceci reste un problème difficile en raison de la réverbération, qui peut être difficile à caractériser. On peut voir ceci comme un problème d'échantillonnage, qui soulève un certain nombre de questions intéressantes: combien de points d'échantillonnage sont nécessaires, où choisir les points d'échantillonnage, etc. Dans cet exposé, nous passerons en revue quelques études de cas, en 2D (vibrations de plaques) et 3D (acoustique des salles), avec des données numériques et expérimentales, où nous avons développé des modèles parcimonieux des signaux, basés sur une modélisation physique du champ acoustique. Ce type de modèles se prête alors bien à des techniques de reconstruction de type échantillonnage compressif (compressed sensing). Travaux effectués dans le cadre du projet ANR ECHANGE, en collaboration avec N. Bertin, G. Chardon, A. Cohen, R. Gribonval, R. Mignot, F. Ollivier et A. Peillot.

*-lasso therapy : parcimonie et structures, application à la séparation de sources et au débruitage
Matthieu Kowalski (LSS, Gif-sur-Yvette)

En partant du problème de séparation sous-déterminée de mélange convolutif de sources audio, on présente les outils de modélisation parcimonieuse et d'optimisation convexe permettant d'attaquer le problème. Cette approche variationnelle souple permet une bonne prise en compte du caractère convolutif dans l'attache aux données, et le terme de régularisation permet de jouer sur le type de parcimonie attendue. De nombreuses expériences montrent que l'on améliore significativement (jusqu'à 4 dB) la qualité de la séparation. Enfin, on montrera grâce à des résultats obtenus en débruitage, comment on peut modifier les algorithmes et les modèles pour introduire plus de flexibilité dans la modélisation des signaux.

Audio Inpainting
Valentin Emiya (LIF, Marseille)

We introduce Audio Inpainting, leveraging the concept of Image Inpainting, for the restoration of missing audio data. Audio inpainting covers a wide range of applications - such as click removal, declipping, packet loss concealment or bandwidth extension - where the distorted data is considered as missing and its location is assumed to be known a priori. A framework for audio inpainting in the time domain is proposed, based on sparse representations. It exploits two possible dictionaries (discrete cosine and Gabor) known to provide accurate sparse models for audio signals. The Orthogonal Matching Pursuit algorithm is adapted for audio inpainting, in particular to deal with the properties of the Gabor dictionary. A constrained matching pursuit approach is applied to significantly enhance the performance for the audio declipping problem. Several experiments on real audio data show the global trends and the performance of our approach.

- A. Adler, V. Emiya, M. J. Jafari, M. Elad, R. Gribonval, M. D. Plumbley, Audio Inpainting, IEEE Trans. on Audio, Speech and Lang. Proc., 20 (3), 2012, http://hal.inria.fr/inria-00577079/PDF/RR-7571.pdf
- A. Adler, V. Emiya, M. J. Jafari, M. Elad, R. Gribonval, M. D. Plumbley, A Constrained Matching Pursuit Approach to Audio Declipping, ICASSP, 2011, http://hal.inria.fr/inria-00557021/PDF/2011-05-22_ICASSP_declipping.hal.pdf

Reconnaissance d'accords basée sur des gabarits théoriques
Laurent Oudre (CMLA, Cachan)

Depuis une dizaine d’années, de nombreux travaux visent à représenter les signaux musicaux de la façon la plus compacte et pertinente possible, par exemple dans un but de description ou d’indexation. La transcription en accords constitue une façon simple et robuste d’extraire l’information harmonique et rythmique des chansons et peut notamment être utilisée par les musiciens pour rejouer les morceaux. Dans ce séminaire, nous décrivons deux approches de base pour la reconnaissance automatique d’accords à partir de signaux audio, qui offrent la particularité de se baser uniquement sur des gabarits d’accords théoriques, c’est-à-dire sur la définition des accords. En particulier, nos systèmes ne nécessitent ni connaissance particulière sur l’harmonie du morceau, ni apprentissage.

Similarité pour l'audio : de la musique aux sons environnementaux
Mathieu Lagrange (IRCAM, Paris & IRCCYN, Nantes)

Dans cet exposé, je présenterai les intérêts de la notion de similarité comme sujet d'étude dans le cadre d'un questionnement scientifique sur la représentation des signaux sonores. Dans un second temps, je ferai un tour d'horizon critique de l'utilisation de cette notion dans le cadre de l'étude des signaux musicaux. Ceci nous amènera à porter notre attention sur les sons environnementaux. Nous motiverons leur étude car ils permettent à mon sens de mieux comprendre l'intérêt relatif de différentes représentations sonores et de rattacher plus aisément ces études aux différentes connaissances sur la perception humaine que ce soit en neuroscience ou en psycho-perception.

DReaM -- Séparation de sources informée pour l'écoute active de la musique
Sylvain Marchand (Lab-STICC, Brest) & Antoine Liutkus (LTCI, Paris)

Le projet DReaM vise le développement scientifique et technique d'une nouvelle technologie dans le domaine du traitement des sons, permettant à un auditeur écoutant un morceau de musique stéréophonique (deux voies gauche et droite) de pouvoir séparer les différentes voix et les différents instruments de la scène sonore pendant sa diffusion, afin de les manipuler séparément (modification de volume, de position dans l'espace, de timbre, de hauteur de note, etc.). C'est ce qu'on appelle l'écoute active, une approche de l'écoute musicale qui répond au désir croissant d'interaction des auditeurs. La technologie proposée est totalement compatible avec tout format stéréo classique, et notamment le CD-audio. Cette technologie permet une séparation efficace (rapidité et qualité) de nombreux instruments à partir de deux voies stéréo, ce qui représentait encore très récemment un défi scientifique majeur.

Pour relever ce défi, ce projet a proposé une nouvelle approche au problème de la séparation de sources, qui consiste précisément à extraire un ou plusieurs signaux sources à partir de mélanges de ces signaux. Il s'agit ici d'exploiter une configuration rare : la disponibilité en amont du mixage des signaux sources enregistrés séparément en studio. Ainsi, au niveau de la production du CD actif, on propose d'extraire de ces signaux sources une information pouvant être exploitée par le processus de séparation. Cette information est ensuite insérée dans le signal musical lui-même par un procédé de tatouage audionumérique. Le signal mixé tatoué est ensuite fixé sur CD-audio avec le format standard. Au niveau de la restitution du signal, effectuée par un « lecteur de CD actif », l'information tatouée est extraite du signal mixé et exploitée par le décodeur réalisant la séparation des signaux sources à partir de ce mix. On introduit ainsi le concept novateur de séparation de sources informée (par le tatouage) en opposition aux approches classiques aveugles ou semi-aveugles. Conjointement, ce projet propose aussi le développement de techniques de manipulation et de transformation des signaux musicaux compatibles avec le procédé de séparation informée, et offrant les fonctionnalités de l'écoute active.

Un exemple particulier de système complet de séparation informée sera présenté, qui met en œuvre une technique de tatouage haute capacité ainsi qu'un modèle Gaussien pour les sources. Nous montrerons comment ce système permet d'obtenir en pratique des sources séparées de très bonne qualité, rendant possibles des applications d'écoute active. Nous esquisserons enfin quelques pistes actuelles de recherche dans le domaine, en particulier des liens qui existent entre la séparation informée et le codage de source.

Comment interfacer séparation de sources et classification audio ?
Emmanuel Vincent (INRIA Rennes - Bretagne Atlantique)

On considère le problème de la classification audio au sens large: reconnaissance de la parole, identification du locuteur ou du chanteur, etc. En situation réelle, le signal cible est le plus souvent superposé à d'autres signaux (bruit, accompagnement, etc). Si la séparation de sources permet de rehausser le signal cible, elle introduit aussi des distorsions de sorte que la performance de classification augmente peu voire diminue. L'approche appelée "propagation de l'incertitude" consiste à estimer la distribution a posteriori des signaux sources et à propager cette distribution à travers les étapes de calcul des descripteurs et de classification. Nous présentons deux nouvelles contributions dans ce cadre:
- une méthode d'estimation de la distribution a posteriori des signaux sources basée sur un algorithme variationnel bayésien
- une méthode d'apprentissage des classifieurs par mélanges de gaussiennes ou par modèles de Markov cachés fonctionnant directement sur des signaux bruités
Nous présentons des applications de ces résultats à l'identification du locuteur dans un contexte domestique bruité et à l'identification du chanteur dans la musique polyphonique.

- Kamil Adiloglu and Emmanuel Vincent, "A general variational Bayesian framework for robust feature extraction in multisource recordings", in Proc. 2012 IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), pp. 273–276, 2012. http://hal.inria.fr/hal-00656613/PDF/VARNMF.pdf
- Alexey Ozerov, Mathieu Lagrange, and Emmanuel Vincent, "Uncertainty-based learning of acoustic models from noisy data", Computer Speech and Language, to appear. http://hal.inria.fr/hal-00717992/PDF/ozerov_CSL12.pdf
- Mathieu Lagrange, Alexey Ozerov, and Emmanuel Vincent, "Robust singer identification in polyphonic music using melody enhancement and uncertainty-based learning", in Proc. 13th Int. Society for Music Information Retrieval Conf. (ISMIR), 2012. http://hal.inria.fr/hal-00709826/PDF/lagrange_ISMIR12.pdf

Apprentissage de variété acoustique pour la localisation et la séparation bayesiennes de sources sonores
Antoine Deleforge (INRIA Rhône-Alpes)

Les méthodes traditionnelles en localisation de sources sonores se basent sur des modèles géométriques de propagation du son et se servent de la différence de temps d'arrivée (TDOA) et de la différence de niveau acoustique (ILD) entre les micros. Bien qu'efficaces lorsque le signal n'est pas ou peu filtré et en l'absence de réverbérations, ces méthodes souffrent dans le cas d'enregistrements faits en environnements réels et se limitent en grande majorité à l'estimation de l'azimuth (angle gauche-droite) de sources frontales, c'est à dire une localisation unidimensionelle. Dans cet exposé, nous présenteront un nouveau paradigme qui consiste à apprendre le lien entre observations spectrales interaurales de grande dimension et directions 2D de la source sonore. Nous verrons que ces données appartiennent à une variété (manifold) non-linéaire paramétrisée par la direction de la source. Nous proposerons une approche bayesienne appelée "Probabilistic Piecewise Affine Regression" (PPAR) [3] permettant d'établir un lien probabiliste entre l'espace acoustique et l'espace des directions. Nous verrons comment ce cadre probabiliste autorise un grand nombre d'extensions permettant notamment de localiser des sons à spectres épars et bruités, de séparer et localiser simultanément plusieurs sons [2,3], ainsi que de prendre en compte les réverbérations en environnement acoustique réel. La présentation sera illustrée de plusieurs résultats graphiques et auditifs.

[1] The Cocktail Party Robot: Sound Source Separation and Localisation with an Active Binaural Head - Antoine Deleforge, Radu P. Horaud IEEE/ACM International Conference on Human Robot Interaction - March 2012
[2] A Latently Constrained Mixture Model for Audio Source Separation and Localization - Antoine Deleforge, Radu P. Horaud Proceedings of the 10th International Conference on Latent Variable Analysis and Signal Separation, Volume LNCS 7191, Pages 372--379 - March 2012
[3] 2D Sound-Source Localization on the Binaural Manifold - Antoine Deleforge, Radu P. Horaud IEEE International Workshop on Machine Learning for Signal Processing - September 2012

Site internet: http://perception.inrialpes.fr/~Deleforge

Contrôle perceptif / intuitif de la synthèse des sons
Mitsuko Aramaki (LMA, Marseille)

La synthèse numérique des sons a connu ces dernières années une évolution significative qui permet aujourd'hui de reproduire des percepts sonores complexes de façon réaliste en s'appuyant sur des modèles physiques ou de signaux, et ce, en interaction temps-réel. Les enjeux scientifiques générés par de telles avancées méthodologiques se situent désormais au niveau du contrôle intuitif de ces percepts et de la prise en compte du ressenti de l'utilisateur dans les processus de synthèse. Les travaux menés actuellement au LMA s'inscrivent directement dans ce contexte de recherches. L'exposé aura pour objectif de présenter les différentes approches permettant la mise en œuvre de processus de synthèse et de stratégies de contrôle intuitif des sons basées sur le concept d'invariants morphologiques relatifs au timbre. Ces problématiques nécessitent non seulement de prendre en compte la perception des sons dans son aspect le plus large en incluant le point de vue cognitif, mais également de développer des outils d'analyse et de représentations du signal adéquates. Nous nous intéresserons aux sons environnementaux de notre quotidien et de manière plus générale à la création de métaphores sonores dont le besoin devient grandissant dans le contexte du design sonore, de la réalité virtuelle et des applications multimédia.

Fusion multi-modale pour l'identification non-supervisée du locuteur dans les émissions télévisées.
Hervé Bredin (LIMSI, Orsay)

L'identification du locuteur est une tâche traditionnellement mono-modale et supervisée. Elle est "mono-modale" dans le sens où seul le flux acoustique est disponible pour identifier le locuteur et "supervisée" car elle repose sur des modèles de locuteur construits a priori à partir de données annotées. Cet exposé porte sur l'identification du locuteur dans les émissions télévisées de type "talk-show" ou "JT". Plusieurs modalités issues du flux visuel sont alors disponibles pour parvenir à l'identification du locuteur en plus du traditionnel flux acoustique : le visage des personnes et le texte incrusté. En combinant une approche de segmentation et regroupement en locuteurs et la détection du nom des personnes par reconnaissance optique de caractères, il est possible de parvenir à identifier une grande partie des locuteurs sans modèle a priori. Plusieurs méthodes sont présentées, évaluées et comparées. Sur le corpus de test REPERE contenant 3 heures de vidéos, l'approche multi-modale non-supervisée commet deux fois moins d'erreurs que l'approche classique mono-modale supervisée. Ces travaux ont été menés en collaboration avec les partenaires du projet ANR QCompere.

Identification

Avancées récentes en traitement du signal audio

Inscriptions

Annonce

Programme

Résumés des contributions