Les systèmes de conduite autonome dépendent fortement d'une perception environnementale efficace, notamment dans le domaine de la détection d'objets. Bien que les modèles YOLO (You Only Look Once) [1][2][3] se soient imposés comme un standard pour la détection d'objets en temps réel grâce à leur équilibre entre précision et vitesse, ils montrent des limitations face à des situations imprévues, comme l'apparition soudaine d'objets tel que des animaux sur la route.
Ce projet se propose de traiter des cas rares et inattendus, tels que l'entrée soudaine d'animaux dans le champ de vision. En prenant des ensembles de données existants, nous ajouterons des objets apparaissant soudainement, avec des variations de vitesse et de taille, et analyserons comment les modèles actuels réagissent. L'objectif est de comparer les performances des modèles avec ces cas particuliers par rapport à celles obtenues sur des ensembles de données plus conventionnels.
Pour relever ces défis, ce projet vise à explorer une approche globale qui vise à améliorer les cadres YOLO existants et intégrer des techniques telles que les transformers, les mécanismes d'attention et les stratégies de reconnaissance en monde ouvert [4][5]. L'objectif est de créer un système de détection d'objets robuste capable de s'adapter à des environnements complexes et inattendus tout en maintenant des performances en temps réel [6]. Ainsi, les objectifs principaux de ce projet sont les suivants :
Le projet sera effectué en quatre étapes principales :
Revue de la littérature : Effectuer une revue approfondie des avancées récentes dans les modèles YOLO, les méthodes de détection en monde ouvert et les architectures hybrides impliquant des transformers. Cela inclura l'analyse de travaux comme ceux sur la détection en monde ouvert[5] et l'exploration des itérations récentes de YOLO pour les références de performance[2][3].
Développement du modèle :
Amélioration de YOLO : Utiliser l'architecture YOLO et intégrer des techniques d'optimisation récentes, telles que les méthodes de détection sans point d’ancrage ou l'intégration de caractéristiques multi-échelles afin de gérer les objets OOD (out of distribution).
Stratégies en monde ouvert : Mettre en œuvre des mécanismes d'apprentissage incrémental permettant au modèle de s'adapter à de nouvelles classes d'objets en temps réel [6].
Comparaison ou intégration de transformers : Développer un modèle utilisant des mécanismes d'attention basés sur des transformers pour améliorer la compréhension contextuelle et la robustesse.
Évaluation :
Mener des expériences sur des ensembles de données de référence spécifiques à la conduite autonome (par exemple, BDD100K, KITTI) pour évaluer les performances du modèle amélioré en termes de précision, de vitesse et d'adaptabilité à des objets nouveaux.
Traitement des cas inattendus en créant des scénarios simulés à partir des benchmarks existant où des objets apparaissent soudainement dans le champ de vision, et mesurer l’impact de ces situations sur les performances du modèle.
Analyser l'efficacité du modèle dans diverses conditions, y compris différentes conditions d'éclairage, météo et scénarios de circulation.
Effectuer des expérimentations dans différentes conditions de circulation (animaux traversant la route, objets apparaissant brusquement) et analyser la capacité des modèles à gérer ces cas imprévus.
References :
J. Redmon, S. Divvala, R. Girshick and A. Farhadi, "You Only Look Once: Unified, Real-Time Object Detection," 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)
C. -Y. Wang, A. Bochkovskiy and H. -Y. M. Liao, "YOLOv7: Trainable Bag-of-Freebies Sets New State-of-the-Art for Real-Time Object Detectors," 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
Cao, J., Zhang, T., Hou, L. et al. An improved YOLOv8 algorithm for small object detection in autonomous driving. J Real-Time Image Proc 21, 138 (2024).
K. J. Joseph, S. Khan, F. S. Khan and V. N. Balasubramanian, "Towards Open World Object Detection," 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)
Yiming Li, Yi Wang, Wenqian Wang, Dan Lin, Bingbing Li, and Kim-Hui Yap. Open world object
detection: A survey. ArXiv, 2024.
J. M. Pierre, "Incremental Lifelong Deep Learning for Autonomous Vehicles," 2018 21st International Conference on Intelligent Transportation Systems (ITSC)
Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai: Deformable DETR: Deformable Transformers for End-to-End Object Detection. ICLR 2021
kshita Gupta, Sanath Narayan, K J Joseph, Salman Khan, Fahad Shahbaz Khan, and Mubarak
Shah. Ow-detr: Open-world detection transformer. ArXiv, 2022.
Xiao Zhao, Xukun Zhang, Dingkang Yang, Mingyang Sun, Mingcheng Li, Shunli Wang, and Lihua
Zhang. Maskbev: Towards a unified framework for bev detection and map segmentation. arXiv,
Contact: isetitra@utc.fr.
(c) GdR IASIS - CNRS - 2024.