Contexte de l’étude
La situation sanitaire actuelle force la population et les administrations à utiliser des copies numérisées des documents papier. Néanmoins, la large disponibilité d’outils professionnels d’édition d’images, de dispositifs simples de numérisation et l’accessibilité des outils d’impression de haute qualité augmentent le nombre de contrefaçons de documents. Les copies numérisées peuvent être facilement falsifiées à l’aide de certains outils d’édition d’images (comme Photoshop ou Gimp) ou de nouvelles approches basées sur l’utilisation de l’apprentissage profond. De ce fait, il existe un besoin important de solutions efficaces et robustes pour la vérification de l’intégrité des documents imprimés et numérisés par la suite. Il s’agit alors d’extraire la signature d’un document électronique pouvant être utilisée pour la vérification d’intégrité de documents numérisés.
Lorsqu'un document électronique est imprimé et numérisé plusieurs fois, une image du document légèrement différente – en raison des caractéristiques optiques des dispositifs de capture – est obtenue à chaque fois. Un problème similaire se pose en biométrie. Par exemple, lorsque nous réalisons plusieurs fois la capture d'une même empreinte digitale, il ne sera jamais possible d'obtenir des images parfaitement identiques, même si celles-ci seront proches. La difficulté de la mise au point d'une méthode de vérification d'intégrité de documents imprimés puis numérisés est semblable aux difficultés rencontrées en biométrie : on souhaite relever puis comparer des caractéristiques afin de déduire avec une assez grande certitude que deux jeux de données représentent bien la même chose, malgré la présence de bruits.
Pour prendre en compte la propriété d'unicité des données biométriques, des extracteurs flous robustes aux bruits de capteurs sont utilisés [1]. Contrairement à des données biométriques falsifiées, un document falsifié ne diffère pas significativement de sa version authentique, ce qui rend la vérification d’intégrité plus complexe.
Dans de précédents travaux réalisés dans le cadre de ce projet, un premier système de vérification d’intégrité des documents a été mis en place [1,2]. Les caractéristiques extraites sont basées sur l’analyse des intersections et des bifurcations au sein des caractères alpha-numériques.
Nous sommes à présent intéressés par l’exploration de l’utilisation de l’apprentissage automatique pour l’extraction de caractéristiques floues, en nous basant sur une méthode développée précédemment en biométrie [4].
Les objectifs de ce stage sont :
Ce stage de recherche en laboratoire s’inscrit dans le cadre du projet exploratoire FuzzyDoc financé par le GdR ISIS (Information, Signal, Image et ViSion). Il sera encadré par Iuliia Tkachenko (Université Lyon 2, LIRIS, Lyon) et Pauline Puteaux (CNRS, CRIStAL, Lille).
Le financement couvre 5-6 mois de stage, le début souhaité est février-mars 2023. Le stagiaire sera rattaché au LIRIS (Laboratoire d’Informatique en Image et Systèmes d’information) sur le campus de l’Université Lyon 2 à Bron. Des missions ponctuelles au CRIStAL (Centre de Recherche en Informatique, Signal et Automatique de Lille) sont prévues.
[1] P. Puteaux, I. Tkachenko, “Crossing number features: from biometrics to printed character matching”, IWCDF@ICDAR 2021, September 2021, Lausanne, Switzerland.
[2] F. Yriarte, P. Puteaux, I. Tkachenko, “A Two-Step Method for Ensuring Printed Document Integrity using Crossing Number Distances”, IEEE WIFS 2022, December 2022, online.
[3] K. Nandakumar, A. K. Jain, and S. Pankanti. "Fingerprint-based fuzzy vault : Implementation and performance." IEEE Transactions on Information Forensics and Security, 2(4) :744–757, 2007.
[4] C. Rathgeb, J. Merkle, J. Scholz, B. Tams, V. Nesterowicz, “Deep face fuzzy vault: Implementation and performance”, Computers & Security, Volume 113, 2022.
[5] Python implementation of fuzzy extractor https://pypi.org/project/fuzzy-extractor/
Courriel : iuliia.tkachenko@univ-lyon2.fr et pauline.puteaux@cnrs.fr
Merci de fournir un CV, une lettre de motivation, les relevés de notes des deux années de Master.
https://perso.liris.cnrs.fr/itkachenko/public_html/2023_FuzzyDoc_stage.pdf
(c) GdR 720 ISIS - CNRS - 2011-2022.