Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions closes à cette réunion.
15 personnes membres du GdR ISIS, et 19 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 148 personnes.
La saillance visuelle : de son exploitation à son évaluation– Round 2
Journée transverse GDR ISIS et GDR VISION
Le nombre de publications relatives à la saillance a été multiplié d’un facteur 1000 entre 1990 et 2013 (base Scopus : http://shorturl.fr/km). La nécessité pour la communauté scientifique de s’approprier les enjeux en relations avec cette thématique est cruciale. Les applications industrielles sont nombreuses et vont de l’aide à la conduite à la robotique en passant par la réalité augmentée pour les futures lunettes connectées ou les jeux.
Après le vif succès rencontré lors de la première journée autour de la saillance (plus de 60 participants), les GDR ISIS et Vision organisent l’acte II de ces rencontres. Au cours de cette deuxième journée, nous avons décidé, dans les présentations du matin, de répondre aux questions soulevées, entre autres, sur la saillance visuelle et les modèles usuels de carte de saillance. Nous nous focaliserons aussi sur l’aspect validation des algorithmes de saillance, avec d’un côté les métriques classiques (NSS, ROC, etc...) et de l'autre les validations « physiques » ou "application-driven validations" (CBIR, etc…).
Par ailleurs, dans l’après-midi, des présentations seraient les bienvenues dans les domaines de la compression, de la stéganographie pour des applications en tatouage d’images et de vidéos, de l’évaluation de la qualité d’images et vidéos, ainsi que la saillance multi-modales (vidéo+ son).
Des présentations relevant de l’aspect vérité -terrain avec oculomètre ainsi que la notion de saillance liée à l'expert, à l'usage sont particulièrement attendues.
Cette journée, qui se veut pluridisciplinaire conserve donc les mêmes objectifs que la première : recenser les modèles les plus récents permettant de construire des cartes de saillance, puis montrer leur application à des algorithmes de segmentation et d’analyse d’images et de vidéos, mais également pour le développement de métriques de qualité d’image ou de vidéo basées sur des connaissances du système visuel humain.
Cette journée se déroulera le 19 juin 2014 de 9h30 à 17h45 à Telecom Paris Amphi Emeraude (148 personnes max). Pour info, il devra impérativement être libéré pour 18h.
Nous vous présentons ici un pré-programme, qui pourra être modifié en fonction du nombre des soumissions reçues :
9h30 : accueil
9h45 :
Modèles de saillance, Vincent Courboulay (L3I)
Techniques de validation physio / physique eye tracker, Nathalie Guyader (GIPSA-Lab)
Validation métrique, N.Riche (UMONS)
11h30 :
Intervenant GDR VISION
12h00-12h15 : repas
13h45-16h45 :
(20mn pres + 10 mn question)
16h30-17h débriefing
17h30 : fin de journée
Les propositions d'exposés sont à envoyer à Vincent Courboulay (vincent.courboulay@univ-lr.fr) et Christine Fernandez (christine.fernandez@univ-poitiers.fr) pour le GDR ISIS et à Nathalie Guyader pour le GDR VISION (Nathalie.Guyader@gipsa-lab.grenoble-inp.fr ), avant le 19 Mai.
Olivier Le Meur (MCF ESIR - Université Rennes 1)
In this presentation, we propose a new framework to predict visual scanpaths of observers while they freely watch a visual scene. The visual fixations are inferred from bottom-up saliency and several oculomotor biases. Bottom-up saliency is represented by a saliency map whereas the oculomotor biases (saccade amplitudes, saccade orientations, recentering tendency) are modeled using public eye tracking data sets. Our experiments show that the simulated scanpaths exhibit similar trends of human eye movements in a free-viewing condition. In addition, we show that computing saliency maps from simulated visual scanpaths allows to outperform existing saliency methods.
Satya Mahesh Muddamsetty (PhD student), Dro-Desire Sidibé, Alain Trémeau, and Fabrice Mériaudeau. Universities: Université de Bourgogne and Université Jean Monnet
De nombreuses applications de la vision par ordinateur requièrent la détection, la localisation et le suivi de régions ou d'objets d'intérêt dans une image ou une séquence d'images. De nombreux modèles d'attention visuelle, inspirés de la vision humaine, qui détectent de manière automatique les régions d'intérêt dans une image ou une vidéo, ont récemment été développés et utilisés avec succès dans différentes applications. Néanmoins, la plupart des approches existantes sont limitées à l'analyse de scènes statiques et très peu de méthodes exploitent la nature temporelle des séquences d'images.
L'objectif principal de ce travail est donc l'étude de modèles d'attention visuelle pour l'analyse de scènes dynamiques complexes. Une carte de saliance est habituellement obtenue par la fusion d'une carte statistique (saliance spatiale dans une image) d'une part, et d'une carte dynamique (salience temporelle entre une série d'image) d'autre part. Dans notre travail, nous modélisons les changements dynamiques par un opérateur de texture LBP-TOP (Local Binary Patterns) et nous utilisons l'information couleur pour l'aspect spatial.
Les deux cartes de saliances sont calculées en utilisant une formulation discriminante inspirée du système visuel humain, et fuionnées de manière appropriée en une carte de saliance spatio-temporelle.
De nombreuses expériences avec des bases de données publiques, montrent que notre approche obteint des résulats meilleurs ou comparables avec les approches de la littérature.
Wenbin Zou, IRISA Rennes
Low-rank matrix recovery (LRMR) model, aiming at decomposing a matrix into a low-rank matrix and a sparse one, has shown the potential to address the problem of saliency detection, where the decomposed low-rank matrix naturally corresponds to thebackground, and the sparse one captures salient objects. This is under the assumption that the background is consistent and objects are obviously distinctive. Unfortunately, in real images, the background may be cluttered and may have low contrast with objects. Thus directly applying the LRMR model to the saliency detection has limited robustness. This paper proposes a novel approach that exploits bottom-up segmentation as a guidance cue of the matrix recovery. This method is fully unsupervised, yet obtains higher performance than the supervised LRMR model. A new challenging dataset PASCAL-1500 is also introduced to validate the saliency detection performance. Extensive evaluations on several widely used datasets and also on the new PASCAL-1500 dataset demonstrate that the proposed saliency model outperforms the state-of-the-art models.
Matthieu Perreira Da Silva (MCF Polytech Nantes)
Making technological advances in the field of human-machine interactions requires that the capabilities and limitations of the human perceptual system are taken into account. The focus of this report is an important mechanism of perception, visual selective attention, which is becoming more and more important for multimedia applications. We introduce the concept of visual attention and describe its underlying mechanisms. In particular, we introduce the concepts of overt and covert visual attention, and of bottom-up and top-down processing. Challenges related to modeling visual attention and their validation using ad hoc ground truth are also discussed. Examples of the usage of visual attention models in image and video processing are presented. We emphasize multimedia delivery, retargeting and quality assessment of image and video, medical imaging, and the field of stereoscopic 3D images applications.
Merwan BIREM (doctorant en 3ème année)
AbstractLoop-closure detection, which is the ability to recognize a previously visited place, is of primary importance for robotic localization and navigation problems. We here introduce SAIL-MAP, a method for loop-closure detection based on vision only, applied to topological simultaneous localization and mapping (SLAM). Our method allows the matching of camera images using a novel saliency-based feature detector and descriptor. These features have been designed to benefit from the robustness to viewpoint change and image perturbations of bio- inspired saliency algorithms. Additionally, the same algorithm is used for the detector and descriptor. The results obtained on different large-scale data sets demonstrate the efficiency of the proposed solution for localization problems.
Pierre Duthon (étudiant en master 2)
Présentation de travaux de recherche en stage de master 2 pour un retour critique. Le sujet est à propos de l'utilité de la saillance dans un contexte routier. Plus particulièrement, il porte sur la question de savoir si la saillance visuelle est un bon prédicteur pour détecter les éléments liés à la conduite. Il permet aussi d'établir le classement comparatif de 10 algorithmes de saillance sur des bases de données en contexte routier.
M. Ammar, M. Mitrea, M. Hasnaoui, P. Le Callet
Les cartes de saillances visuelles ont déjà prouvé leur efficacité dans le domaine des vidéos communications couvrant la compression sélective, le codage canal ou a protection de données. Ces cartes sont généralement calculées à partir des diverses caractéristiques (couleur, intensité, orientation, mouvement, ...) extraites directement dans le domaine pixel. Notre étude a pour objectif de générer une carte de saillance visuelle directement dans le domaine flux compressé MPEG-4 AVC [1].
La génération de la carte de saillance est structurée en trois étapes. Tout d'abord, les caractéristiques statiques et temporelles sont extraites à partir des éléments syntaxiques du flux compressé, pour chaque block 4x4 dans les trames I et P, respectivement. Les caractéristiques statiques considérées sont : (1) l'intensité, calculée à partir des coefficients résiduels de luminance, (2) la couleur, extraite à partir des coefficients résiduels de chrominance et (3) l'orientation donnée par la variation des modes de prédiction directionnelle intra. Le comportement temporel découle de la variation de la différence des vecteurs de mouvement. Ensuite, les cartes de saillance correspondant à ces caractéristiques visuelles sont calculées individuellement.
Finalement, les cartes obtenues sont normalisées et fusionnées pour calculer la carte de saillance finale du flux MPEG-4 AVC. La carte obtenue est validée aussi bien par rapport à la vérité terrain que dans le cadre d'une application de tatouage robuste. Pour confronter nos résultats à la vérité terrain, nous avons considéré un corpus de 8 séquences vidéos de 10 secondes chacune [2] disponible en téléchargement libre [3]. Ces séquences vidéo sont accompagnées par des cartes moyennes de fixation obtenues en captant par un dispositif EyeTracker l'attention visuelle [2], [3] de 30 observateurs. Nous avons calculé les différences entre notre carte de saillance et ces cartes de fixation. Une valeur moyenne de 1,44 pour la divergence de Kullback-Leibler et une valeur moyenne de 0,71 pour AUC sont ainsi obtenues.
La validation applicative considère une méthode de tatouage robuste du flux MPEG-4 AVC à base de QIM (Quantisation Index Modulation) [4]. Un corpus hétérogène de 120 minutes (cf. le projet ITEA2 SPY) a été traité lors de l'évaluation. La carte de saillance obtenue est utilisée pour guider le processus d'insertion de la marque. Les expériences montrent que pour une quantité d'information insérée et pour une robustesse préétablie, une amélioration de 2dB est obtenue en transparence. Ces expériences ont considéré successivement une quantité d'information de 30, 60, et 90 bits/seconde. Pour chacune de ces valeurs, une robustesse exprimée par une BER (bit error rate) de 0.07, 0.03 et 0.01 face aux attaques de transcodage, redimensionnement et respectivement de filtrage Gaussien a été imposée.
Date : 2014-06-19
Lieu : Telecom Paris Amphi Emeraude
Thèmes scientifiques :
B - Image et Vision
Inscriptions closes à cette réunion.
Accéder au compte-rendu de cette réunion.
(c) GdR IASIS - CNRS - 2024.