Stage Master 2 / dernière année école d’ingénieur – 6 mois – 2025
Extraction de connaissances sur les changements d’occupation et usage des
sols à partir de données textuelles
(English version below)
Contexte général et projets de recherche
La caractérisation de l’utilisation et de l’occupation des sols (Land Use and Land Cover,
LULC en anglais) et de leurs changements est essentielle pour comprendre les dynamiques
territoriales et gérer durablement les espaces naturels et urbains. La modélisation
spatio-temporelle, qui permet de représenter et projeter ces changements, mobilise des
connaissances expertes, qualitatives ou quantitatives, intégrées dans les modèles sous
forme de règles logiques. L’un des moyens d’obtenir ces connaissances est la sollicitation
d’experts par des entretiens, mais cette approche est coûteuse en temps et présente des
biais.
D’autres sources d’informations peuvent être mobilisées, telles que la littérature scientifique,
les rapports techniques ou encore les articles de presse. La sélection de documents
pertinents et leur analyse est une tâche chronophage pour laquelle des approches
d’extraction automatique peuvent être utilisées. Dans ce contexte, les méthodes de
traitement automatique du langage et d’apprentissage automatique peuvent permettre : (1)
l’extraction automatique d’informations d'intérêt, (2) la normalisation et représentation de ces
informations dans un formalisme adapté, et (3) leur transformation en règles logiques.
L’extraction et représentation des connaissances à partir de données textuelles ont été
étudiées dans le domaine de l’agriculture (Drury et al. 2019; Drury et Roche 2019) et
domaines connexes tels que l’agriculture urbaine (Bhuyan et al. 2024) ou les crises
agrométéorologiques (Zhang et al. 2023). En revanche, peu de travaux ont porté sur le
traitement de données textuelles sur la thématique de l’usage et de l’occupation des sols,
leurs changements, et les drivers associés. Le stage se déroule dans la cadre du projet
ARENA (Automatic Rule Extraction and Network Analysis), financé par le CNES, ayant pour
but d’extraire des informations sur l’usage et l’occupation des sols à partir d’articles
scientifiques et de les combiner avec des réseaux multicouches issus de séries temporelles
d'images satellites. Les recherches les plus proches du projet ARENA sont les travaux de
Kaczmarek (2023) ainsi que les travaux menés dans le cadre du projet Hérelles
(https://herelles-anr-project.cnrs.fr/). Ce stage fait également suite à des travaux menés
précédemment dans le cadre de l’ANR TipHyc (Tipping points in the West African
Hydrological Cycle), sur l’extraction d’information à partir d’articles scientifiques.
Le.a. futur.e stagiaire s’appuiera sur les premiers résultats obtenus pour améliorer les
propositions méthodologiques utilisées et étudiera l’inclusion de nouvelles sources de
données textuelles.
Objectifs du stage
Ce stage a pour objectif de développer une approche pour l’extraction et la formalisation de
connaissances sur l’occupation et usage des sols à partir de sources textuelles, grâce à
l’utilisation de techniques avancées de traitement automatique de la langue et apprentissage
automatique.
Il s’articulera en plusieurs étapes :
1. Identification de sources de données textuelles pertinentes et constitution de corpus
sur une zone d’étude pré-définie,
2. Formalisation de la notion d’information pertinente sur la thématique des
changements d’occupation ou d’utilisation des sols LULC, en collaboration avec des
experts du domaine,
3. Enrichissement d’une nomenclature existante sur l’occupation et usage des sols et
les processus de changement,
3. Comparaison de méthodes d’extraction automatique à partir des corpus d’étude.
Selon les enjeux méthodologiques identifiés, le.a stagiaire sera amené.e à comparer
des approches supervisées, intégrant ou non des règles expertes (Kaczmarek,
2023), et des approches reposant sur des grands modèles de langues (Large
Language Models) (Dagdelen et al. 2024). Le point d’ancrage des connaissances à
extraire sera les changements d’occupation et d’usage des sols et les processus qui
leur sont associés.
4. L’analyse quantitative et qualitative des informations extraites.
Les données d’étude seront en anglais ou en français selon la zone d’étude.
Organisation du stage
Le stage se déroulera sur une période de 6 mois, à compter de février 2025, dans les locaux
de la Maison de la Télédétection à Montpellier.
L’étudiant·e sera accueilli·e au sein de l’équipe MISCA de l’UMR TETIS (Territoire
Environnement Télédétection et Information Spatiale) et sera encadré·e par Sarah Valentin,
chercheuse en fouille de données textuelles au Cirad à l’UMR TETIS et Roberto Interdonato,
chercheur en Intelligence Artificielle, également au Cirad à l’UMR TETIS. Le déroulement du
stage se fera dans un contexte interdisciplinaire, notamment en collaboration avec Simon
Madec, chercheur en télédétection et apprentissage profond au sein de l’UMR TETIS .
En plus de la rédaction d’un mémoire de Master 2 ou de fin d’étude selon les attentes de sa
formation, d’autres modalités de valorisation des résultats seront éventuellement envisagées
avec les encadrants au cours du stage telles que la publication d’un jeu de données (corpus)
et la contribution à un data paper.
Compétences recherchées
● Formation en informatique
● Bonne maîtrise du langage de programmation Python
● Connaissances en traitement automatique du langage et/ou apprentissage
automatique
● Maîtrise de l’anglais écrit
● Intérêt pour les applications socio-environnementales et le travail