Annonce

18 novembre 2024

Stage M2 Extraction de connaissances à partir de données textuelles [UMR TETIS - Montpellier]

Catégorie : Stagiaire

Bonjour,

Nous proposons une offre de stage de master 2 en traitement automatique du language naturel portant sur l'"Extraction de connaissances sur les changements d’occupation et usage des sols à partir de données textuelles".

Ce stage se déroulera sur une période de 6 mois entre janvier et juin 2025 et sera co-encadré par des chercheurs Cirad de l'UMR TETIS dans le cadre du projet TOSCA-CNES ARENA (Automatic Rule Extraction and Network Analysis). Vous trouverez l’offre de stage sur ce lien : https://nubes.teledetection.fr/s/t49PRAr8dJq95sx.

Les étudiant.e.s intéressé.e.s peuvent transmettre leur CV, lettre de motivation et rapport de stage de M1 avant le 29/11/2024 à Sarah Valentin (sarah.valentin@cirad.fr) et Roberto Interdonato (roberto.interdonato@cirad.fr), en précisant en objet du mail “CANDIDATURE STAGE ARENA 2025”.

Merci par avance de bien vouloir transmettre cette offre à vos étudiants.

Bien cordialement,
Roberto Interdonato

Stage Master 2 / dernière année école d’ingénieur – 6 mois – 2025

Extraction de connaissances sur les changements d’occupation et usage des

sols à partir de données textuelles

(English version below)

Contexte général et projets de recherche

La caractérisation de l’utilisation et de l’occupation des sols (Land Use and Land Cover,

LULC en anglais) et de leurs changements est essentielle pour comprendre les dynamiques

territoriales et gérer durablement les espaces naturels et urbains. La modélisation

spatio-temporelle, qui permet de représenter et projeter ces changements, mobilise des

connaissances expertes, qualitatives ou quantitatives, intégrées dans les modèles sous

forme de règles logiques. L’un des moyens d’obtenir ces connaissances est la sollicitation

d’experts par des entretiens, mais cette approche est coûteuse en temps et présente des

biais.

D’autres sources d’informations peuvent être mobilisées, telles que la littérature scientifique,

les rapports techniques ou encore les articles de presse. La sélection de documents

pertinents et leur analyse est une tâche chronophage pour laquelle des approches

d’extraction automatique peuvent être utilisées. Dans ce contexte, les méthodes de

traitement automatique du langage et d’apprentissage automatique peuvent permettre : (1)

l’extraction automatique d’informations d'intérêt, (2) la normalisation et représentation de ces

informations dans un formalisme adapté, et (3) leur transformation en règles logiques.

L’extraction et représentation des connaissances à partir de données textuelles ont été

étudiées dans le domaine de l’agriculture (Drury et al. 2019; Drury et Roche 2019) et

domaines connexes tels que l’agriculture urbaine (Bhuyan et al. 2024) ou les crises

agrométéorologiques (Zhang et al. 2023). En revanche, peu de travaux ont porté sur le

traitement de données textuelles sur la thématique de l’usage et de l’occupation des sols,

leurs changements, et les drivers associés. Le stage se déroule dans la cadre du projet

ARENA (Automatic Rule Extraction and Network Analysis), financé par le CNES, ayant pour

but d’extraire des informations sur l’usage et l’occupation des sols à partir d’articles

scientifiques et de les combiner avec des réseaux multicouches issus de séries temporelles

d'images satellites. Les recherches les plus proches du projet ARENA sont les travaux de

Kaczmarek (2023) ainsi que les travaux menés dans le cadre du projet Hérelles

(https://herelles-anr-project.cnrs.fr/). Ce stage fait également suite à des travaux menés

précédemment dans le cadre de l’ANR TipHyc (Tipping points in the West African

Hydrological Cycle), sur l’extraction d’information à partir d’articles scientifiques.

Le.a. futur.e stagiaire s’appuiera sur les premiers résultats obtenus pour améliorer les

propositions méthodologiques utilisées et étudiera l’inclusion de nouvelles sources de

données textuelles.

Objectifs du stage

Ce stage a pour objectif de développer une approche pour l’extraction et la formalisation de

connaissances sur l’occupation et usage des sols à partir de sources textuelles, grâce à

l’utilisation de techniques avancées de traitement automatique de la langue et apprentissage

automatique.

Il s’articulera en plusieurs étapes :

1. Identification de sources de données textuelles pertinentes et constitution de corpus

sur une zone d’étude pré-définie,

2. Formalisation de la notion d’information pertinente sur la thématique des

changements d’occupation ou d’utilisation des sols LULC, en collaboration avec des

experts du domaine,

3. Enrichissement d’une nomenclature existante sur l’occupation et usage des sols et

les processus de changement,

3. Comparaison de méthodes d’extraction automatique à partir des corpus d’étude.

Selon les enjeux méthodologiques identifiés, le.a stagiaire sera amené.e à comparer

des approches supervisées, intégrant ou non des règles expertes (Kaczmarek,

2023), et des approches reposant sur des grands modèles de langues (Large

Language Models) (Dagdelen et al. 2024). Le point d’ancrage des connaissances à

extraire sera les changements d’occupation et d’usage des sols et les processus qui

leur sont associés.

4. L’analyse quantitative et qualitative des informations extraites.

Les données d’étude seront en anglais ou en français selon la zone d’étude.

Organisation du stage

Le stage se déroulera sur une période de 6 mois, à compter de février 2025, dans les locaux

de la Maison de la Télédétection à Montpellier.

L’étudiant·e sera accueilli·e au sein de l’équipe MISCA de l’UMR TETIS (Territoire

Environnement Télédétection et Information Spatiale) et sera encadré·e par Sarah Valentin,

chercheuse en fouille de données textuelles au Cirad à l’UMR TETIS et Roberto Interdonato,

chercheur en Intelligence Artificielle, également au Cirad à l’UMR TETIS. Le déroulement du

stage se fera dans un contexte interdisciplinaire, notamment en collaboration avec Simon

Madec, chercheur en télédétection et apprentissage profond au sein de l’UMR TETIS .

En plus de la rédaction d’un mémoire de Master 2 ou de fin d’étude selon les attentes de sa

formation, d’autres modalités de valorisation des résultats seront éventuellement envisagées

avec les encadrants au cours du stage telles que la publication d’un jeu de données (corpus)

et la contribution à un data paper.

Compétences recherchées

● Formation en informatique

● Bonne maîtrise du langage de programmation Python

● Connaissances en traitement automatique du langage et/ou apprentissage

automatique

● Maîtrise de l’anglais écrit

● Intérêt pour les applications socio-environnementales et le travail

Retour

Identification

Annonce

Stage M2 Extraction de connaissances à partir de données textuelles [UMR TETIS - Montpellier]

Dans cette rubrique