Vous êtes ici : Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

4 octobre 2024

Stage M2 au CEA : Nouvelles approches par apprentissage statistique profond pour l’identification structurale de biomarqueurs en métabolomique par spectrométrie de masse


Catégorie : Stagiaire


La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour découvrir de nouveaux biomarqueurs. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse de fragmentation (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données expérimentales. C’est pourquoi les approches in silico se sont développées ces dernières années. L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir de données originales multiplexées obtenues selon une approche expérimentale innovante du laboratoire.

 

Contexte : La spectrométrie de masse haute résolution couplée à la chromatographie liquide (LC-HRMS) est une technologie puissante en santé pour détecter et caractériser l’ensemble des petites molécules dans un échantillon biologique (métabolomique), afin de découvrir de nouveaux biomarqueurs et médicaments. L’identification des métabolites (i.e. la détermination de leur structure 2D) à partir de l’analyse du spectre de masse obtenu après fragmentation du composé (MS/MS) représente un défi majeur en raison de la taille limitée des bases de données de spectres de référence expérimentaux comparée à la diversité chimique du métabolome. C’est pourquoi les approches in silico, et en particulier les méthodes d’apprentissage statistique se sont développées ces dernières années [1] pour prédire à partir d’un spectre MS/MS (liste de pics correspondant à des couples « masse, intensité ») une représentation de la molécule et/ou de son processus de fragmentation en sous-structures sous forme de descripteurs chimiques ou de chaine de caractères (e.g. SMILES). Toutefois, les performances des modèles actuels restent limitées à 26% de prédiction correcte de la structure 2D. Pour enrichir l’information chimique dans les spectres MS/MS, notre laboratoire a développé de nouvelles approches expérimentales multiplexées qui permettent d’acquérir en parallèle une grande quantité de spectres sur le même composé dans des conditions de fragmentation distinctes.

Sujet : L’objectif du stage est de développer de nouveaux modèles d’apprentissage profond pour l’identification structurale à partir des données MS/MS multiplexées.

Travail demandé : A partir d’une base de données originale de composés récemment caractérisés expérimentalement de manière approfondie au laboratoire, les performances prédictives des modèles de l’état de l’art seront d’abord évaluées (e.g. par prédiction de descripteurs chimiques ou de SMILES grâce à un transformer ou un auto-encoder [2]). Un nouveau type d’architecture sera ensuite développé pour intégrer l’ensemble des informations multiplexées et montrer leur impact sur la qualité de la prédiction. L’ensemble des algorithmes seront implémentés avec les librairies PyTorch et RDKit notamment, et appliqués à la recherche de biomarqueurs dans les données de plusieurs cohortes cliniques disponibles au laboratoire.

Mots clés : apprentissage statistique, théorie des graphes, chimie numérique, spectrométrie de masse, santé

Références :

[1] Liu et al. (2021) Current and future deep learning algorithms for tandem mass spectrometry (MS/MS)-based small molecule structure elucidation. Rapid Commun Mass Spectrom, DOI:10.1002/rcm.9120.

[2] Russo et al. (2024) Machine learning methods for compound annotation in non-targeted mass spectrometry—A brief overview of fingerprinting, in silico fragmentation and de novo methods. Rapid Commun Mass Spectrom. DOI: 10.1002/rcm.9876.

Profil : Nous recherchons un.e candidat.e avec un bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie, physique, biologie).

Lieu du stage : Le stage s’effectuera au centre CEA de Saclay, dans l’équipe science des données métabolomiques du laboratoire Innovations en Spectrométrie de Masse pour la Santé.

Durée du stage : 6 mois à partir de début 2025

Date limite de candidature : 30 novembre 2024

Contact : Merci d’adresser votre candidature (CV détaillé, lettre de motivation, notes de licence et master et nom de deux référents) à :

Etienne Thévenot (etienne.thevenot@cea.fr)

Equipe sciences des données (https://odisce.github.io)

Laboratoire Innovations en Spectrométrie de Masse pour la Santé (LI-MS)

UMR Médicaments et Technologies pour la Santé (MTS)

CEA, Centre de Saclay, F-91191 Gif sur Yvette, France

 

Dans cette rubrique

(c) GdR IASIS - CNRS - 2024.