Méthodes d'apprentissage statistiques et applications à la santé

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

32 personnes membres du GdR ISIS, et 48 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 140 personnes.

Annonce

L'objectif de cette journée est de présenter des méthodes originales et des applications de l'apprentissage statistique dans le domaine de la santé. Les données biomédicales possèdent en effet certaines spécificités devant être considérées par des méthodologies ad hoc. Les développements en apprentissage automatique ont permis de nouvelles avancées dans l'extraction de connaissance, l'analyse, la visualisation et la reconstruction de données médicales.

Cette journée thématique est l'occasion de discuter des travaux les plus récents en apprentissage statistique et d'identifier les nouvelles techniques et leurs utilisations pour les données biomédicales. Notre objectif est d'établir un état de lieux utile pour deux communautés, celle des méthodes d'apprentissage statistique et celle des données biomédicales. Les contributions de la journée porteront à la fois sur des aspects théoriques et sur des applications réelles fondées sur de l'apprentissage statistique, dans différents domaines de la santé.

Les domaines d'intérêt sont :

Analyse et extraction de connaissance pour les images et signaux biomédicaux
Indexation automatique et recherche d'information
Classification et réduction de dimension sur données biomédicales
Système d'aide à la décision basé sur l'IA
Intelligence computationnelle en médecine clinique
Système d'information médicale intelligent

La journée inclut des conférences invitées et des communications pour lesquelles nous lançons un appel à contributions.

Orateurs invités :

Hervé Lombaert, Research Fellow au INRIA / Microsoft Research, Joint Centre, Palaiseau, "Spectral Forests for Learning Surface Data - Example on Brain Surfaces"Résumé:
Stéphane Canu, Professeur, INSA de Rouen, "Apprentissage parcimonieux: application en traitement d'images médicales"
Mathieu Hatt, CR INSERM au LaTIM, "Segmentation et caractérisation des tumeurs en imagerie TEP/TDM: 10 ans d'apports des méthodes statistiques"

Si vous souhaitez présenter vos travaux, merci d'envoyer vos propositions pour le 20 novembre 2015 au plus tard (titre, auteurs, affiliation, résumé de 15 lignes) aux organisateurs :

Alain Rakotomamonjy : alain.rakoto@insa-rouen.fr
Caroline Petitjean : caroline.petitjean@univ-rouen.fr
Su Ruan : su.ruan@univ-rouen.fr

Programme

9h20 - 9h30 Présentation de la journée. Organisateurs.
9h30 - 10h20 Stéphane Canu, Professeur, INSA de Rouen.
Apprentissage parcimonieux: application en traitement d'images médicales
10h20 - 10h40 Alexander Aksenov (Clinatec/LETI/CEA, Grenoble).
Group-wise sparsity using Penalized N-way PLS. Example of frequency bands and electrodes selection in BCI experiments
10h40 - 11h00 Pause café.
11h00 - 11h50 Hervé Lombaert, Research Fellow au INRIA / Microsoft Research, Joint Centre, Palaiseau.
Spectral Forests for Learning Surface Data - Example on Brain Surfaces
11h50- 12h10 Mehdi Rahim (Parietal team INRIA / CEA, Orsay).
Transmodal Learning: Improving functional connectivity biomarkers of Alzheimer's Disease with metabolic activity priors
12h10 - 12h30 Omar A. Galarraga C. (IBISC, Evry).
Simulation de l'effet de la chirurgie sur la marche par apprentissage statistique chez des enfants paralysés cérébraux
12h30 - 12h50 Sylvain Takerkart (INT, Marseille).
Graphical representation and classification of brain patterns: applications to functional, diffusion and anatomical MRI
12h50 - 14h00 Pause déjeuner.
14h00 - 14h50 Mathieu Hatt, CR INSERM au LaTIM.
Segmentation et caractérisation des tumeurs en imagerie TEP/TDM: 10 ans d'apports des méthodes statistiques
14h50 - 15h10 Paul Desbordes (LITIS, Rouen).
Détermination des valeurs prédictives et pronostiques des caractéristiques TEP initiales au 18FDG basée sur la méthode du random forest chez les patients atteints d?un cancer de l'oesophage
15h10 - 15h30 Jean-Marc GINOUX (ISITV, Toulon)
Mathematical modelling of sleep fragmentation diagnosis
15h30 - 15h50 Matthieu Doyen (LTSI, Rennes)
Détecteur probabiliste robuste d'onde R adapté au monitoring temps-réel
15h50 - 16h10 Pause café.
16h10 - 16h30 Meriem El Azami (CREATIS, Lyon).
Computer aided diagnosis of epilepsy lesions based on multivariate and multi-modality data analysis
16h30 - 16h50 Adrien Chan-Hon-Tong (ONERA ? VitaDx, Paris-Saclay)
Vers un système d'aide au diagnostic automatisée pour le cancer précoce de la vessie
16h50 - 17h10 Eva D'hondt (LIMSI-CNRS, Orsay).
Combinaison de classifieurs pour la reconnaissance d'entités nommées dans le domaine médical
17h10 Table ronde, tous les participants.

Résumés des contributions

---------------------------------------

Orateurs invités

1) 9h30-10h20 : Apprentissage parcimonieux: application en traitement d'images médicales

Stéphane Canu, Professeur, INSA de Rouen

Détection robuste de point aberrants à l'aide de L0-SVDD. Le problème de la détection des valeurs aberrantes consiste à détecter les observations qui ne sont pas cohérentes avec la population à partir de laquelle un échantillon est généré. Pour résoudre ce problème nous proposons une reformulation du problème de description de données de vecteur de support (SVDD) basé sur la norme L0, bien adapté pour la détection des valeurs aberrantes . Nous démontrons que ce problème L0 - SVDD peut être résolu en utilisant une procédure itérative utilisant une pondération des données. Nous montrons que notre approche surpasse état ??des techniques de détection des valeurs aberrantes art sur des données d'imagerie médicales.

- Meriem El Azami, Carole Lartizien and Stéphane Canu, Robust outlier detection with L0-SVDD, ESANN, 2014

2) 11h00-11h50 : Spectral Forests for Learning Surface Data - Example on Brain Surfaces

Hervé Lombaert, Research Fellow au INRIA / Microsoft Research, Joint Centre, Palaiseau.

How to analyze data on complex shapes, such as on the highly folded surface of the brain? In this talk, we show how spectral representations of shapes can benefit learning problems where data lives on surfaces. Key operations, such as segmentation and registration, typically need a common mapping of surfaces, often obtained via slow and complex mesh deformations in a Euclidean space. Here, we exploit spectral coordinates derived from the Laplacian eigenfunctions of shapes and also address the inherent instability of spectral shape decompositions. Spectral coordinates have the advantage over Euclidean coordinates, to be geometry aware and to parameterize surfaces explicitly. This change of paradigm, from Euclidean to spectral representations, enables a classifier to be applied *directly* on surface data, via spectral coordinates.

The talk will focus, first, on spectral representations of shapes, with an example on brain surface matching, and second, on the learning of surface data, with an example on automatic brain surface parcellation.

3) 14h00-14h50 : Segmentation et caractérisation des tumeurs en imagerie TEP/TDM: 10 ans d'apports des méthodes statistiques

Mathieu Hatt, CR INSERM au LaTIM

L'imagerie multimodale TEP/TDM est utilisée en routine clinique d'oncologie pour le diagnostic et le bilan d'extension, ainsi que pour la définition du traitement de radiothérapie. Elle est également de plus en plus utilisée pour le suivi thérapeutique et la prise en charge personnalisée, par le biais de modèles prédictifs et pronostiques reposant sur une caractérisation quantitative des tumeurs. Toutefois, les outils disponibles pour l'analyse et l'extraction d'informations quantitatives à disposition des cliniciens sont encore rudimentaires. Dans le domaine de la recherche, les développements dédiés à la caractérisation des tumeurs à partir des images TEP/TDM ont été nombreux depuis plus de 10 ans. Cette présentation décrira les progrès accomplis et en particulier les apports des méthodes d'apprentissage et de modélisation statistique pour l'imagerie TEP/TDM et son rôle en oncologie, ainsi que les défis qui restent à relever.

-------------------------------------------------------

Présentations courtes

1) Group-wise sparsity using Penalized N-way PLS. Example of frequency bands and electrodes selection in BCI experiments

Auteurs: Alexander Aksenov, Andrey Eliseyeva, Tetiana Aksenovaa

Affiliation: Clinatec/LETI/CEA, Grenoble, France

Résumé: Penalization is widely used for sparsification of the solution in regression analyses, classification, and other approaches of data analyses. L1 and L0 penalization terms are mainly considered for individual feature selection. Group-wise feature selection is less studied. At the same time, it is important in numerous applications including medical data processing, for example in the real-time multi-frequency analysis of multi-electrodes recordings of neuronal activity. In this case, for the efficient computation, the features should be excluded from the model by groups (e.g. all features related to a given electrode or/and to a given frequency).

From another side, the multi-way (tensor based) analysis was reported recently as an effective tool for data processing. The advantage of this approach is the simultaneous treatment of data in several domains (ways of analysis) to improve information extraction. Spatial, frequency and temporal modalities are mostly considered in neuronal signal processing. For the multi-way data analysis, observations are represented in a form of multi-way arrays (tensors). Penalized NPLS can be applied for sparse tensor factorization. Sparse factors allow slice-wise feature section.

In the presentation L1- and L0-Penalized NPLS algorithms are considered for sparse tensor factorization and for group-wise informative feature selection in Brain-Computer Interface study. The particular task of hand trajectory reconstruction from Electrocorticography (ECoG) with integrated selection of informative frequency bands and informative electrodes is considered.

2) Transmodal Learning: Improving functional connectivity biomarkers of Alzheimer's Disease with metabolic activity priors

Auteur : Mehdi Rahim

Affiliation : Parietal team INRIA / CEA.

Résumé : We introduce in this talk transmodal learning: leveraging a prior from one modality to improve results of another modality, while dealing with different subjects. In the context of the functional characterization of Alzheimer's Disease (AD), the metabolic activity measured through fluorodeoxyglucose positron emission tomography (FDG-PET) gives a reliable quantification, but it is invasive. On the other hand, resting-state fMRI is an easy and non-invasive protocol, but it has fairly limited discrimination power on AD subjects. Our transmodal approach relies on a metabolic prior learned from a large and independent FDG-PET dataset to improve the functional connectivity-based prediction of AD, as functional connectivity is correlated with metabolism. The prior acts as a regularization of connectivity learning and improves the estimation of discriminative patterns from resting-state fMRI datasets. Such an approach increases classification accuracy compared to pure resting-state fMRI approaches and successfully recovers brain regions known to be impacted by the disease.

3) Simulation de l'effet de la chirurgie sur la marche par apprentissage statistique chez des enfants paralysés cérébraux

Auteurs : Omar A. Galarraga C. (1,2), Vincent Vigneron (1), Bernadette Dorizzi (3), Eric Desailly (2)

(1)EA 4526 IBISC, Université d?Evry Val d?Essonne, Evry, France.

(2)Unité d?analyse du mouvement, Fondation Ellen Poidatz, St. Fargeau-Ponthierry, France.

(3)UMR 5157 SAMOVAR, Institut Télécom SudParis, Evry, France.

Résumé : La paralysie cérébrale (PC) est une des causes les plus fréquentes de troubles de la marche. Suite à un examen clinique et à une analyse quantifiée de la marche (AQM) [1], ces troubles peuvent être traités par une chirurgie orthopédique, dite multi-sites, où plusieurs corrections chirurgicales sont faites simultanément à différents niveaux des membres inférieurs [2]. Les améliorations cinématiques apportées par ce traitement, bien que parfois spectaculaires, demeurent difficilement prévisibles à ce jour. L'objectif de ce travail est de simuler par apprentissage statistique supervisé l'effet de la chirurgie sur les signaux de marche, afin de prédire l?effet d?une telle chirurgie.

Une base de données a été constituée avec 134 enfants atteints de PC. Ces patients ont été opérés et ont eu une AQM avant et après la chirurgie. Les données cliniques manquantes ont été imputées par l?algorithme IRMI [3]. Les données préopératoires prétraitées ont été projetées dans un espace de plus faible dimension en utilisant l?analyse en composantes principales [4]. Pour chaque geste chirurgical (9 au total), un modèle de régression a été appris. Des régressions linéaires et non-linéaires par réseaux de neurones ont été faites [5]. Les différentes sorties des modèles ont été fusionnées selon les gestes chirurgicaux considérés et la pertinence statistique des modèles. Ces pertinences ont été mesurées par des tests d?indépendance.

[1] R. W. Baker, Measuring Walking: A Handbook of Clinical Gait Analysis, 1re éd. London: MacKeith Press, 2013.

[2] J. R. Gage, M. H. Schwartz, S. E. Koop, et T. F. Novacheck, The Identification and Treatment of Gait Problems in Cerebral Palsy, 2nd Edition. London: MacKeith Press,2009.

[3] M. Templ, A. Kowarik, et P. Filzmoser, « EM-based stepwise regression imputation using standard and robust methods », Research Rep. Cs-2010-3 Dep. Stat. Probab. Therory Vienna Univ. Technol., 2010.

[4] I. T. Jolliffe, Principal Component Analysis. New York: Springer-Verlag, 2002.

[5] C. M. Bishop, Pattern Recognition And Machine Learning, 1st ed. 2006. Corr. 2nd printing 2011. New York: Springer-Verlag New York Inc., 2006.

Graphical representation and classification of brain patterns : applications to functional, diffusion and anatomical MRI

4) Graphical representation and classification of brain patterns : applications to functional, diffusion and anatomical MRI

Auteurs : Sylvain Takerkart

Affiliation: Institut de Neurosciences de la Timone UMR 7289, AMU, CNRS, Marseille,

Résumé : In brain imaging, solving learning problems in multi-subjects settings is difficult because of the differences that exist across individuals. Here we introduce a novel classification framework based on group-invariant graphical representations, allowing to overcome the inter-subject variability present in magnetic resonance imaging (MRI) data and to perform multivariate pattern analysis across subjects. Our contribution is twofold: first, we propose an unsupervised representation learning scheme that encodes all relevant characteristics of MRI patterns into attributed graphs; second, we introduce a custom-designed graph kernel that exploits all these characteristics and makes it possible to perform supervised learning (here, classification) directly in graph space. We present three applications of this framework to demonstate the well-foundedness of our approach and its genericity : 1) an inter-subject brain-reading method for functional MRI data ; 2) a searchlight scheme that localizes informative sulcal pit patterns from anatomical scans ; 3) a population discrimination method based on tractography-based parcellations estimated with diffusion MRI data.

5) Détermination des valeurs prédictives et pronostiques des caractéristiques TEP initiales au 18FDG basée sur la méthode du random forest chez les patients atteints d'un cancer de l'oesophage.

Auteurs : Desbordes P (1,2), Modzelewski R (1,3), Ruan S (1), Vauclin S (2), Gouel P (3), Michel P (4), Di Fiore F (4), Vera P (1,3), Gardin I (1,3),

(1)LITIS Quantif, EA4108, Université de Rouen, Rouen, France ;

(2)Dosisoft, Cachan, France ;

(3)Département d?Imagerie, Centre Henri Becquerel, Rouen, France ;

(4)CHU, Rouen

Résumé: Pour la réalisation détudes prédictives et pronostiques en oncologie, les caractéristiques de texture extraites des images TEP au 18FDG sont de plus en plus utilisées. Plusieurs dizaines de caractéristiques sont extraites par patient. Afin de sélectionner le meilleur ensemble de caractéristiques, nous proposons une méthode basée sur le random forest (RF). Notre méthode de sélection de caractéristiques se compose de 3 étapes : une étude des corrélations par l?analyse de Spearman, une étude du coefficient d?importance par RF puis une sélection du meilleur sous-ensemble de caractéristique basée sur une classification par RF. Les sous-ensembles définis par notre méthode apportent de bons résultats (erreur de classification moyenne de 15%). De plus, nous avons montré que le volume (MTV) est l?une des caractéristiques les plus pertinentes pour les études prédictives et pronostiques.

6) Mathematical modelling of sleep fragmentation diagnosis

Auteurs : Dr. Roomila NAECK (1), Ms. Emna BOUAZIZI (2), Dr. Daniel D?AMORE (1), Dr. Marie-Françoise MATEO, (1), Dr. Antoine ELIAS (1), Dr. Jean-Philippe SUPPINI, Dr. Claudio RABEC(3), Prof. Dr Xavier DROUOT (4),Prof. Dr Jean-Claude MEURICE (5), Prof. Dr Joel PAQUEREAU (5), Prof. Eric MOREAU (6) and Dr. Jean-Marc GINOUX (6),

(1) Clinical Unit Research / CESNES, Hôpital Sainte Musse / CHITS

(2)Ecole Nationale Supérieure d?Ingénieurs de Tunis;

(3) Service de Pneumologie et Réanimation Respiratoire, CHU Dijon

(4) Service de Pneumologie, CHU Poitiers

(5) Service d?Explorations Fonctionnelles, de Physiologie Respiratoire et de l?Exercice Service de Neurophysiologie Clinique et Centre du Sommeil, CHU Poitiers

(6) ISITV, Team Signal and Image, LSIS, UMR CNRS 7296, Toulon University

Abstract: Polysomnography (PSG) is the recording during sleep of multiple physiological parameters enabling to diagnose sleep disorders and to characterize sleep fragmentation. From PSG several sleep characteristics such as the number of sleep stages shifts (SSS), the micro arousal rate (MAR) and the number of intra sleep awakenings (ISA) can be deduced each having its own fragmentation threshold value and each being more or less important (weight) in the clinician's diagnosis according to his specialization (pulmonologist or neurophysiologist). In this work we propose to build a mathematical model of sleep fragmentation diagnosis based on these three main sleep characteristics (MAR, SSS, ISA) each having its own threshold and weight values for each clinician. To this aim we use a decision algorithm which consists in assigning the value 1 if a patient's sleep is considered as fragmented and the value 0 if it is not. This allows representing by an index, on the one hand each clinician's diagnosis that we call clinician's diagnosis index (CDI) and, on the other hand each corresponding mathematical model of his diagnosis that we call mathematic diagnosis' index (MDI). Thus, from a database of 111 PSG consisting of 55 healthy adults and 56 patients with a suspicion of obstructive sleep apnoea syndrome, we show that a measurement of the agreement between each clinician's diagnosis (CDI) and each corresponding mathematical model (MDI) is substantial. It follows from this result that each of our predictive mathematical model MDI of sleep fragmentation diagnosis is a posteriori validated for each clinician. A multicentric study is ongoing in order to validate our model. The MDI will soon be implemented on our Web site.

7) Détecteur probabiliste robuste d'onde R adapté au monitoring temps-réel

Auteurs: M.DOYEN, D.GE, A.HERNANDEZ, G.CARRAULT

Affiliation: Laboratoire du traitement du signal et de l'image, INSERM U1099

Résumé: La détection robuste de l?onde R demeure une problématique actuelle, comme en atteste les challenges dans les conférences spécialisées en cardiologie [1]. Ceci est renforcé par l?avènement du monitoring temps-réel et des objets connectés, qui imposent de nouvelles contraintes en termes de temporalité et fiabilité. Pour répondre à ces objectifs, nous présentons un détecteur temps-réel robuste, basant sa décision (présence d?une onde R ou non), sur une méthode probabiliste bayésienne. Il implique différentes étapes: 1/ l?estimation de différents indicateurs (corrélation, amplitude, ...), jugés pertinents, modélisés par 2 distributions (apprises puis mises à jour en continu): une pour les extrémas validés comme étant des ondes R, et une autre pour les extrémas invalidés; 2/ le calcul de la probabilité, de chaque indicateur, en fonction des 2 distributions propres à celui-ci; 3/ la construction d?un indice de confiance basé sur la divergence de Kullback Leibler [2]; 4/ la fusion de ces différentes informations (probabilités et indices de confiance) au travers d?un SVM. Les premiers résultats, sur une base de données bruitées, montrent l?intêret de l?approche, et le gain significatif de performances. De plus, sa modularité ouvre des perspectives vers d?autres domaines d?application en détection de phénomènes physiologiques.

[1] https://www.physionet.org/challenge/2014/

[2] S. Kullback, R. Leibler, On information and sufficiency , Annals of Mathematical Statistics, vol. 22, 1951, p. 79-86

8) Computer aided diagnosis of epilepsy lesions based on multivariate and multi-modality data analysis

Auteurs: Meriem El Azami and Carole Lartizien

Affiliation : Université de Lyon, CREATIS ; CNRS UMR5220 ; Inserm U1044 ; INSA-Lyon ; Université Lyon 1,

Collaborations: Julien Jung and Romain Bouet, CRNL, Lyon. Alexander Hammers, King's College London.

Abstract: For epilepsy patients, the success of surgical treatments relies on the accurate localization of the epileptogenic zone. Recent advances in neuroimaging modalities such as magnetic resonance imaging (MRI), positron emission tomography (PET) and magnetoencephalography (MEG) have opened the way for non-invasive pre-surgery evaluation protocols. A computer aided diagnosis (CAD) system that can extract the main discriminative information from the different imaging modalities and output an accurate voxel-based mapping of the suspicious brain areas would be of great help for neurologists to improve the accuracy of the clinical diagnosis as well as the surgical planning.

One of the challenges facing the development of such a supervised learning system is the lack of a sufficient number of annotated pathological cases covering the large spectrum of epileptogenic lesion types. We therefore proposed to address the problem as an outlier detection problem keeping in mind the very large scale issue in terms of voxel number (about 1.5 million voxels), the possible presence of corrupted samples in the training data and the multi-modal nature of the data.

We indeed built upon the one-class support vector machine algorithm to propose a CAD system based on a voxelwise multivariate analysis of multi-modality data. The potential of the proposed approach is illustrated on both realistic simulations and clinical data.

- A. Bernasconi, N. Bernasconi, B. C. Bernhardt, and D. Schrader, ?Advances in MRI for cryptogenic epilepsies?, Nature reviews. Neurology, vol. 7, no. 2, pp. 99?108, Feb. 2011.

- B. Schölkopf, J. C. Platt, J. C. Shawe-Taylor, A. J. Smola, and et al., ?Estimating the support of a high-dimensional distribution?, Neural Comput., vol. 13, no. 7, pp. 1443?1471, july 2001.

- M. El Azami, A. Hammers, N. Costes and C. Lartizien, ?Computer aided diagnosis of intractable epilepsy with MRI imaging based on textural information?, IEEE PRNI ? June 2013 ? Philadelphia (USA).

- M. El Azami, R. Bouet, J. Jung, A. Hammers and C. Lartizien, ?Combining multi-parametric MR images for the detection of epileptogenic lesions?, ISBI'15 ? April 2015 ? New York (USA).

9) Vers un système d'aide au diagnostic automatisée pour le cancer précoce de la vessie

Auteurs : Stéphane Herbin, Tibault TROUDE, Adrien CHAN-HON-TONG

Affiliation : ONERA - VitaDx

Résumé : L'automatisation de l'aide au diagnostic, en particulier à partir de moyens non invasifs de faible coût, est une piste notable de dépistage systématique de pathologies graves. Dans cette communication, nous nous intéressons à l'analyse par interprétation d'image automatique de bouts de lame de cytologie urinaire numérisées en fluorescence après application d'un protocole biologique [2] différenciant les cellules saines, des cellules tumorales (cancer de la vessie). Les méthodes qui dominent l'état de l'art récent de la vision par ordinateur sont les techniques de réseau de neurones dites d'apprentissage profond ("Deep Learning"). Elles ont montré leur intérêt en exploitant notamment les quelques millions d'images de la base annotée Imagenet [1]. Mais, l'apprentissage direct d'un réseau profond semble peu pertinent dans un contexte où chaque donnée d'apprentissage est obtenue au travers d'un essai clinique pouvant coûter entre 1000 à 10000 ? par échantillon. L'utilisation de ces approches de Deep Learning nécessite le développement de techniques spécifiques de transfert de domaines à partir de réseaux pré-entrainés.

L'exposé proposera des pistes permettant de comparer et de conjuguer les approches expertes avec ces nouvelles approches d'interprétation d'images.

[1] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton - Imagenet classification with deep convolutional neural networks - NIPS 2012

[2] Steenkeste, Karine and Lécart, Sandrine and Deniset, Ariane and Pernot, Pascal and Eschwege, Pascal and Ferlicot, Sophie and Lévêque-Fort, Sandrine and Briandet, Romain and Fontaine-Aupart, Marie-Pierre - Photochemistry and photobiology 2007

10) Combinaison de classifieurs pour la reconnaissance d'entités nommées dans le domaine médical

Auteurs : François Morlane-Hondère, Eva D'hondt Bouamor, Swen Ribeiro, Thomas Lavergne

Affiliation : LIMSI-CNRS

Résumé: Cette présentation décrira le système développé dans le cadre de la participation du LIMSI à la tâche "Clinical named entity recognition" organisée lors de l'atelier CLEF eHealth 2015. Ce système a pour but d'extraire et d'identifier les occurrences de 10 types d'entités nommées du domaine médical (parties du corps, médicaments, instruments médicaux...) dans des titres d'articles de recherche du domaine biomédical (corpus MEDLINE) et des notices de médicaments (corpus EMEA), tous deux en français.

Nous mettons en oeuvre des méthodes d'apprentissage automatique en combinant trois classifieurs : deux modèles CRF (Conditional Random Fields) dont le but est d'identifier les frontières des entités pertinentes et un modèle SVM (Support Vector Machine) qui vise à reconnaître leur nature sémantique.

Les deux premiers classifieurs sont basés sur des traits qui combinent propriétés de surface des mots (longueur, casse), caractéristiques morphosyntaxiques (classe grammaticale, fonction syntaxique tête/modifieur) et recours à des lexique externes. Le troisième s'appuie sur la présence/absence de l'entité extraite dans un ensemble de lexiques (liste de maladies, de parties du corps, de médicaments...) et sur la consultation automatique d'une plate-forme médicale.

Les résultats montrent des performances inégales en fonction des corpus (F1=0.54 pour le corpus MEDLINE, F=0.69 pour EMEA), lesquelles nous ont permis de repenser notre stratégie d'apprentissage.