Traitement du signal pour la voix (Action Audio)

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

19 personnes membres du GdR ISIS, et 33 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 70 personnes.

Annonce

Dans le cadre de l'action «Traitement du signal pour l'audio et l?écoute artificielle» du Gdr Isis, nous organisons, le Jeudi 20 Octobre 2022 à l'IRCAM, une seconde journée dédiée «Voix», animée par les orateurs suivants :

Yves Laprie
Thomas Hueber
Nathalie Henrich Bernadoni
Axel Roebel

Invitation

Nous invitons également les doctorants et post-doctorants souhaitant présenter leur travaux relevant de laudio de contacter Vincent Lostanlen (vincent dot lostanlen at ls2n dot fr) avant 1er Octobre. Leur présentation se fera avec le format suivant : une brève présentation de 3 minutes en plénière et un poster affiché durant la journée.

Comité d'organisation

Mathieu Lagrange (LS2N, CNRS)
Thomas Hélie (STMS, Ircam, CNRS)
Vincent Lostanlen (LS2N, CNRS)

Programme

09:30 Accueil (Café)

10:00 Introduction

10:15 Yves Laprie : Prédiction de la forme géométrique du conduit vocal à partir de la suite de phonèmes à articuler

11:15 Thomas Hueber : Acoustic-articulatory modeling: from assistive technologies to the study of speech development mechanisms

12:15 Repas

14:00 Nathalie Henrich Bernadoni : De la théorie source-filtre aux interactions pneumo-phono-résonantiels : la complexité de la voix humaine

15:00 Axel Roebel : Méthodes d'apprentissage profond pour le traitement de la voix

16:00 Présentation des doctorants en salle

16:30 Posters des doctorants (Café)

17:30 Clôture

Résumés des contributions

Yves Laprie : Prédiction de la forme géométrique du conduit vocal à partir de la suite de phonèmes à articuler

Lexposé porte sur la prédiction de la forme géométrique du conduit vocal à partir dune suite de phonèmes.
Il commencera présenter les différentes approches qui ont été utilisées par le passé, en particulier celles qui reposent sur lutilisation de modèles articulatoires afin de dresser le panorama des enjeux et des difficultés.
Lexposé portera ensuite sur lutilisation de lIRM dynamique afin de capturer les gestes des articulateurs. Comme cinéIRM ne peuvent pas être exploités directement nous présenterons les outils de suivi automatique des articulateurs avec leurs limites. Ensuite nous présenterons lapproche par apprentissage profond de la prédiction de la forme géométrique du conduit vocal dans le plan médio-sagittal en fonction de la suite de phonèmes à articuler.

Yves Laprie est chercheur CNRS au LORIA à Nancy. Mes recherches portent sur la synthèse et la modélisation articulatoire, l'analyse de la parole et l'apprentissage du langage. Ces dernières années j'ai essentiellement travaillé sur l'exploitation de données IRM temps réel.

Thomas Hueber : Acoustic-articulatory modeling: from assistive technologies to the study of speech development mechanisms

Speech production is a complex motor process involving several physiological phenomena, such as the neural, nervous and muscular activities that drive our respiratory, laryngeal and articulatory movements. Modeling speech production, in particular the relationship between articulatory gestures (tongue, lips, jaw, velum) and acoustic realizations of speech, is a challenging, and still evolving, research question. From an applicative point of view, such models could be embedded into assistive devices able to restore oral communication when part of the speech production chain is damaged (articulatory synthesis). They could also help rehabilitate speech sound disorders using a therapy based on biofeedback (and articulatory inversion). From a more fundamental research perspective, such models can also be used to question the cognitive mechanisms underlying speech perception and motor control. In this talk, I will present different studies conducted in our group, aiming at learning acoustic-articulatory models from real-world data, using (deep, but not only) machine learning. First, I will focus on different attempts to adapt a direct or inverse model, pre-trained on a reference speaker, to any new speaker. Then, I will present a recent work on the integration of articulatory priors into the latent space of a variational auto-encoder, for potential application to speech enhancement. Finally, I will describe a recent line of research aiming at studying, through modeling and simulation, how a child learns the acoustic-to-articulatory inverse mapping in a self-supervised manner when repeating auditory-only speech stimuli.

Nathalie Henrich Bernadoni : De la théorie source-filtre aux interactions pneumo-phono-résonantiels : la complexité de la voix humaine

Depuis plus dun demi-siècle, la théorie source-filtre reste au cur de la modélisation, de lanalyse et de la synthèse de la voix humaine et de ses expressions, comme la parole et le chant. Dans cette présentation, nous reviendrons sur cette théorie et sur ce quelle nous dit de la production vocale humaine. Nous verrons ensuite comment la diversité des gestes phonatoires et articulatoires nous imposent de repenser ce modèle pour y inclure des niveaux dinteraction, que nous détaillerons.

Nathalie Henrich est une scientifique passionnée par la voix humaine sous toutes ses formes dexpressions. Elle est Directrice de Recherche au CNRS dans lINstitut des Sciences Humaines et Sociale (INSHS), Section Sciences du Langage. Ses projets de recherche portent sur la phonétique expérimentale et clinique de la parole et du chant, sur la caractérisation physiologique et physique des techniques vocales (chant lyrique, chant amplifié, chant du monde), ainsi que sur le développement de techniques expérimentales non invasives et d'avatars vocaux mécatroniques. Elle coordonne la Journée Mondiale de la Voix en France (16 Avril). Elle a reçu une médaille de bronze du CNRS en 2013 pour ses travaux en vocologie.

Axel Roebel: Deep learning methods for voice processing: Neural vocoding for voice transformation.

For some years, the state-of-the-art in speech synthesis and processing has been dominated by data-driven methods and deep neural networks. The use of ever larger amounts of data allows the exploitation of ever more parameters, leading to ever better results. Unfortunately, the increasing computational complexity hinders the widespread application of these models.

In the first part of the talk, we will present our research into data and computationally efficient voice transformation with deep neural networks. We will introduce the Multi-band Excited WaveNet, a deep neural network that integrates a WaveNet into a classical source-filter model. The discussion will motivate model structure and training losses. We will describe the deficiencies of the proposed model and briefly reflect on perspectives considering the rapidly evolving state of the art in neural vocoding.

The second part will then demonstrate ongoing research into applications of the neural vocoder, combining it with dedicated models for intensity, pitch, expressivity or identity transformation.

Bio: Axel Roebel is director of research IRCAM and head of the Analysis/Synthesis team. His research activities center around voice and music synthesis and transformation with strong focus on artistic and industrial applications. After many years or research into various signal processing algorithms he now has shifted his focus towards data driven methods.

Identification