Le sujet détaillé, avec équations, figures et références, peut être trouvé à l’adresse suivante : https://partage.imt.fr/index.php/s/b5SibEJack5nMrR
Sujet
En traitement du signal, la séparation aveugle de sources (SAS) est une méthode de premier plan pour traiter des données multi-observations. Celle-ci a fait ses preuves dans de nombreux domaines : traitement du signal audio, télédétection, astrophysique. Un cas particulier, qui sera la principale application étudiée dans ce stage, est la transcription automatique de la musique, qui consiste à retrouver à partir d'un enregistrement audio d'un morceau de musique quelles notes ont été jouées, à quel instant et pour quelle durée. En d'autres termes, la transcription automatique traduit un fichier audio en un fichier MIDI correspondant.
En pratique, la SAS est souvent écrite sous la forme d'un problème d'optimisation, qui est toutefois hautement complexe car non-convexe. Dans ce contexte, la stratégie d'optimisation des mises-à-jours multiplicatives (Multiplicative updates - MU) est couramment utilisée, car elle permet d'obtenir de manière simple des approximations des solutions recherchées. Toutefois, ces approximations sont souvent sous-optimales.
Dans des travaux précédents, nous avons proposés une stratégie de dépliements des MU à base de réseaux neuronaux pour introduire de la supervision dans la SAS, ce qui en améliore la vitesse de convergence et les performances de séparation des sources. Ce stage a pour objet l'extension de ces travaux pour la transcription automatique. Cela pose un certain nombre de difficultés pratiques et formelles :
- La définition d'une fonction de perte adaptée entre les estimées de la SAS et la vérité terrain MIDI.
- Le passage à l'échelle de l'algorithme MU déplié pour les données audio.
- La prise en compte de la distribution des données qui conduit à choisir une fonction de perte de type Kullback-Leibler.
- L'extension de la méthode proposée à un modèle SAS convolutif, un modèle de mélange plus réaliste.
Les méthodes développées durant le stage devront être minutieusement évaluées, tant sur données simulées que réalistes, pour déterminer leur intérêt par rapport à l'algorithme MU classique ainsi que les approches supervisées basées sur l'apprentissage profond.
Candidat / candidate
La personne recrutée doit être en formation de Master 2 (ou équivalent) et devra posséder de bonnes connaissances en traitement du signal, des images ou de l'audio, ainsi qu'en apprentissage automatique (machine learning). Idéalement, le langage Python (et notamment le module d'apprentissage Pytorch) devra être connu. Enfin, la maîtrise d'outils d'optimisation convexe est un plus.
Le candidat / la candidate acquerra une expertise formelle en traitement du signal (notamment en factorisation de matrices), en apprentissage profond et en optimisation non-convexe. Les connaissances acquises sont valorisables dans de nombreux domaines : extraction d'information musicale, télédétection, astrophysique, traitement de données textuelles...
Contact
Le stage (6 mois) se déroulera au sein de l'équipe IMAGES (Télécom Paris), sous la supervision de Jérémy Cohen (CNRS CREATIS, Lyon), Christophe Kervazo (Télécom Paris) et Mathieu Fontaine (Télécom Paris).
Contact: christophe.kervazo@telecom-paris.fr
Les candidatures sont attendues avant début décembre 2024.
(c) GdR IASIS - CNRS - 2024.