La saillance visuelle et son exploitation dans l'amélioration des algorithmes de traitement d'images et l'évaluation de la qualité d'images

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

28 personnes membres du GdR ISIS, et 27 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 40 personnes.

Annonce

Les modèles bio-inspirés ouvrent aujourd’hui de nouvelles perspectives au traitement, à l’analyse et à l’évaluation de la qualité de transmission et de reproduction des images et séquences d’images. Les recherches actuelles en neurosciences cognitives permettent de décrire les processus attentionnels selon trois composantes :

La sélection ascendante (bottom-up) de caractéristiques saillantes parmi les données sensorielles (pour le canal visuel, la saillance visuelle).
Les biais descendants (top-down) qui dépendent de nombreux facteurs, comme la tâche en cours, l’état émotionnel, les connaissances a priori, etc.
La compétition entre les différentes caractéristiques pour accéder aux ressources limitées, comme la mémoire à court terme, et la sélection de stimuli pertinents.

Parmi ces facteurs, le plus intéressant à exploiter à travers des modèles numériques est la saillance visuelle dans la mesure où c’est la partie du système attentionnel qui dépend des données, par opposition avec les biais descendants (top-down) qui dépendent de l’observateur et de la tâche en cours. Ceci est particulièrement important dans des tâches d’évaluation de la qualité d’une image ou d’une vidéo car le jugement que l’on porte doit être lié aux propriétés intrinsèques des données. Parmi les théories de l’attention visuelle, la Feature Integration Theory (FIT) s’est imposée grâce aux travaux de Itti qui a proposé un modèle efficace pour calculer la saillance visuelle à partir d’une image. Ce modèle est fondé sur des analogies avec le fonctionnement physiologique du système visuel (sélection ascendante et compétition entre les caractéristiques) et il utilise l’hypothèse d’une unique carte de saillance pour l’ensemble du processus attentionnel Ce modèle initial ne considèrait que des caractéristiques statiques dans les images: luminance, couleur et orientation et par la suite il a été proposé un modèle dynamique permettant de calculer la saillance visuelle dans une scène dynamique en ajoutant deux caractéristiques aux trois précédentes : le mouvement (estimé à partir des détecteurs d’orientation dans des images successives) et le flicker (variation temporelle de l’intensité).

Cette journée, qui se veut pluridisciplinaire, en lien avec le GDR VISION a donc pour objectif de recenser les modèles les plus récents permettant de construire des cartes de saillance, puis de montrer leur application à des algorithmes de segmentation et d’analyse d’images et de vidéos, mais également pour le développement de métriques de qualité d’image ou de vidéo basées sur des connaissances sur le fonctionnement du système visuel humain. En effet, s’il existe de nombreuses métriques, leurs critères de qualité, s’ils sont variés (objectifs comme dans le VDP, subjectifs comme dans CIECAM02), font l’hypothèse, en général, que l’on est en vision centrale. Or pour juger de la qualité d’images dynamiques ou d’images 3D, nous avons besoin d’une métrique capable de prédire des caractéristiques dynamiques, la première d’entre elles étant l’orientation du regard dans l’image. Il est donc particulièrement important d’exploiter une carte de saillance dynamique, comme un prédicteur de l’attention visuelle. Enfin, pour comparer l’efficacité des différents modèles computationnels de la saillance, il est nécessaire de disposer d’une méthode objective de comparaison des résultats, c’est pourquoi, il sera important d’évoquer également, lors de cette journée, les expérimentations psycho-visuelles à base d’oculométrie (eye-tracking).

Les propositions d'exposés sont à envoyer à Pascal Mamassian pour le GDR VISION (pascal.mamassian@univ-paris5.fr) et à Christophe Charrier (christophe.charrier@unicaen.fr), Christine Fernandez (christine.fernandez@univ-poitiers.fr) et Hakim Saadane (abdelhakim.saadane@univ-nantes.fr) pour le GDR ISIS, avant le 26 août.

Programme

9h30 - 9h45 : Introduction (Organisateurs)

09h45-10h15 : Yann Coello "Liage spatio-temporel des informations visuelles pour la perception et l'action"

10h20-10h50 : Nathalie Guyader "Influence de différents attributs : couleur, mouvement, visages, biais de centralité, son et 3D sur l’exploration de scènes et leur prise en compte dans des modèles d'attention visuelle"

10h55-11h15 : Geoffroy Fouquier "optimisation de séquences de segmentation combinant modèle structurel et focalisation de l'attention visuelle, appliqué à la segmentation de structures cérébrales"

11h20-11h40 : Nicolas Loménie "Adaptive Picture-in-Picture Technology based on Visual Saliency"

11h45-12h05 : Stephane Herbin "Vision fovéale pour la reconnaissance d'objet"

12h10-12h30 : Thomas Grilletta "Parcours automatique de peintures numériques à partir de cartes de saillance"

12h30 - 13h45 : Déjeuner

13h45-14h15 : Patrick Cavanagh "L'attention spatiale: un système active pour la saillance"

14h20-14h40 : Arezki Aberkane "Extraction de lignes de crêtes perceptuelles avec un filtre orienté de demi-gaussiennes multi-échelle"

14h45-15h05 : Syntyche Gbehounou "Les régions saillantes amélioreraient-elles l’évaluation de l’impact émotionnel des images ?"

15h10-15h30 : Nicolas Ballas "Saliency-Pooling for Human Action recognition"

15h35-15h55 : Shahrbanoo Hamel "L’influence de la couleur sur les mouvements oculaires lors de l’observation de vidéos"

16h00-17h00 : Discussions

Résumés des contributions

Liage spatio-temporel des informations visuelles pour la perception et l'action

Yann Coello (URECA, Université Lille 3)

Influence de différents attributs : couleur, mouvement, visages, biais de centralité, son et 3D sur l’exploration de scènes et leur prise en compte dans des modèles d'attention visuelle

Nathalie Guyader (Gipsa-Lab ,Grenoble)

Depuis de nombreux années, nous menons des travaux au GIPSA-lab sur la perception visuelle en utilisant une double approche à la fois (1) comportementale avec l'enregistrement des mouvements et oculaires et plus récemment des signaux électro encéphalographiques, mais aussi (2) en modélisation fonctionnelle. Dans ce cadre-là, au sein de l'équipe ViBS, Vision and Brain Signal Processing, l'étude de l'attention visuelle occupe une place centrale. Il s'agit de développer des modèles bio-inspirés permettant de prédire les régions qui attirent le regard dans une scène, et intégrant les différentes étapes de traitement de l’information visuelle depuis la rétine jusqu’aux cellules corticales.

Nous présentons ici une revue de plusieurs études sur l’influence d’attributs visuels de bas niveau (couleur, mouvement, 3D), d’attributs visuels dits de plus haut niveau (visage), d’attributs non visuels (la bande son) ou encore d’attributs à la fois liés aux stimuli mais également aux mouvements oculaires (biais de centralité) lors de l’exploration de scènes naturelles. La mise en évidence d’une influence d’un attribut se fait en utilisant différents critères qui permettent de comparer des mouvements oculaires enregistrés dans différentes conditions (trajets oculaires ou paramètres oculomoteurs comme la durée des fixations et l’amplitude des saccades). Nous proposons enfin aux vues des résultats expérimentaux obtenus des pistes d’intégration de ces attributs dans des modèles d’attention visuelle.

Optimisation de séquences de segmentation combinant modèle structurel et focalisation de l'attention visuelle, appliqué à la segmentation de structures cérébrales

Geoffroy Fouquier (Groupe Traitement et Interprétation des Images(TII), Telecom Paristech.)

Un processus de segmentation séquentielle, où les objets d'une scène sont segmentés de manière successive, soulève deux principaux problèmes : le choix de la meilleure séquence de segmentation à effectuer et de la manière d’éviter la propagation des erreurs. Nous proposons ici une approche originale pour répondre à ces questions dans le cas où les objets à segmenter sont représentés par un modèle décrivant les relations spatiales entre ces objets. Le processus est guide par un critère dérivé de l'attention visuelle (une carte de saillance adaptée à nos données) ainsi que de l'information spatiale qui permet une focalisation de l'attention. Le critère est utilisé pour optimiser la séquence de segmentation. L'information spatiale est ensuite utilisée pour garantir la cohérence du résultat et de revenir en arrière si nécessaire. L'approche proposée est appliquée à la segmentation des structures internes du cerveau dans des IRMs. Les résultats montrent la pertinence du critère d'optimisation et l’intérêt de la procédure de retour en arrière pour garantir des résultats bons et cohérents.

Adaptive Picture-in-Picture Technology based on Visual Saliency

Nicolas Loménie(Université Paris Descartes, UFR Math&Info)

Picture-in-picture (PiP) is a feature of some television receivers and video devices, which allows one main program to be displayed on the full screen while one or more subprogram displayed in inset windows. Currently most TV/video devices require users to specify where and how large to place the sub-program over the main program display. This process is instead not user-friendly as it involves a manual process and once specified, the size and the location of the sub-program will be fixed even when they block some key visual information from the main program. We propose an automatic and adaptive PiP technology that makes use of computational modeling of visual saliency. For each frame of the main program, a saliency map is computed efficiently which quantifies how probable a display region of the main program contains useful information and will attract humans’ attention/eyes. The sub-program can thus be adaptively resized and placed to the display region that contains the least useful information. Preliminary experiments show the effectiveness of the proposed technology.

Vision fovéale pour la reconnaissance d’objets

Stephane Herbin(ONERA, DTIM, Palaiseau)

Le système visuel humain est une source d'inspiration récurrente pour la conception de systèmes artificiels et d'algorithmes en raison de sa compacité, de sa polyvalence, et de l'utilisation optimisée de ses ressources. L'une des caractéristiques les plus notables est la combinaison de capteurs à résolution spatiale et à typologie variables dans le champ visuel et de mécanismes attentionnels de prise d'information par modification de la ligne de visée, que l'on peut dénommer succinctement par vision fovéale.

La notion de saillance apparaît en creux dans ce type de problématique, et peut être considérée comme une variable cachée capable de coder le "where to look next" de la séquence de saccades explorant le champ visuel.

L'exposé se situe dans le contexte de la conception de systèmes artificiels de vision. Il examinera la possibilité et l'intérêt de développer un système de vision fovéale pour des tâches d'interprétation de scène de haut niveau. Le cas de la reconnaissance d'objet sous catégorielle ("fine-grained") sera plus particulièrement abordé. Une question sous-jacente portera sur la pertinence de la notion de carte de saillance pour des tâches d'interprétation de haut niveau.

L'exposé sera illustré par des résultats issus de plusieurs actions de recherche portant sur la conception d'algorithmes de reconnaissance active d'objet. Il s'appuiera également sur certaines connaissances en neurosciences pour identifier les analogies possibles entre systèmes artificiels et naturels.

Parcours automatique de peintures numériques à partir de cartes de saillance

T. Grilletta 1,2, J.T. Tchoumou 1, W. Puech 2, F. Comby 2, N. Rodriguez 2 (1 : Laoviland Expérience, 2 : LIRMM UMR CNRS/UM2, Montpellier)

Afin d'introduire la culture dans des lieux publics, la société Laoviland Expérience, en collaboration avec l'équipe ICAR du LIRMM, propose de développer un système de visualisation d'œuvres numériques sur du mobilier urbain. Le challenge n'est pas simple car les panneaux publicitaires numériques actuels sont, soit positionnés pour être regardés depuis une distance assez importante, soit de petites tailles. L'objectif du système de visualisation consiste donc à extraire de manière automatique des zones d'intérêt dans l’œuvre numérique à visualiser afin de les enchainer en gros plan sur le support numérique. Pour développer ce système, la société Laoviland Expérience et l'équipe ICAR du LIRMM se sont appuyées sur l'extraction de cartes de saillance dans les images.

L'attention spatiale: un système active pour la saillance

Patrick Cavanagh (Université Paris Descartes)

I will present research showing that the eye movement map is the “master map of locations” – for eye movements, for attention, and for perception. Evidence shows that it is not a passive salience as it represents not current target locations but predicted locations, predicted based on knowledge of upcoming changes due to eye or target motion. Our behavioral results show attention benefits at these predicted locations and we now demonstrate that when targets are moving, they are seen ahead of their actual retinal location because they are seen at their predicted next location.

Extraction de lignes de crêtes perceptuelles avec un filtre orienté de demi-gaussiennes multi-échelle

Arezki Aberkane, Baptiste Magnier, Philippe Montesinos (Mines, Ales)

Les méthodes d'extraction de contours classiques d'ordre 1 dans les images ne sont pas adaptées à la détection de lignes de crêtes (crêtes ou vallées), puisqu'elles calculent la pente des contours et ainsi extraient deux contours de part et d'autre de chaque crête.
Afin de bien détecter et extraire ces lignes de crêtes, nous avons utilisé un filtrage linéaire directionnel anisotrope par le moyen de la différence de deux demi-gaussiennes orientées. A partir des filtrages directionnels, un opérateur de crête est calculé, cet opérateur fournit directement une valeur de saillance à partir d'une image non segmentée.

Cet algorithme est très performant, même aux niveaux des crêtes coudées puisqu'il est composé de deux demi-noyaux de lissage orientés dans deux directions différentes.

Pour détecter toutes les crêtes quelque soient leurs largeurs dans une image, nous avons traité cette dernière à différentes échelles. Comme le filtre utilisé est gaussien et anisotrope, nous avons créé un espace échelle en deux dimensions, d'une part, la variation de la largeur et d'autre part, la variation de la longueur du filtre. L'idée est de toujours avoir le rapport (longueur / largeur) constant quel que soit l'échelle utilisée ; cela revient à utiliser un filtre avec une longueur adéquate pour chaque échelle. Cette technique permet de bien détecter les crêtes de petites tailles et d'être en même temps robuste aux bruits, du fait que le filtre utilisé est composé d'un fort lissage orienté dans la direction de ces lignes de crêtes. Enfin, contrairement aux méthodes d’extraction de lignes de crêtes classiques et multi-échelles existantes, les lignes de crêtes floues, discontinues, coudées, même si un coin n’apparaît pas dans l’image originale, sont extraites de manière continue.

Les régions saillantes amélioreraient-elles l’évaluation de l’impact émotionnel des images?

Syntyche Gbehounou (XLIM-SIC, Poitiers)

Les régions saillantes contiennent des informations intéressantes pour résumer une image, offrant ainsi des clés pour une bonne analyse et une compréhension aisée. Nous avons étudié l’impact de la réduction d’une image `a la région saillante sur l’évaluation de l’impact émotionnel. Pour ce faire, nous avons choisi un modèle de saillance de type ”bottum-up” puisque la base de test SENSE (Studies of Emotion on Natural image databaSE), utilisée, est faiblement sémantique. Nous avons organisé deux expérimentations subjectives. La première, appelée SENSE1, a été réalisée sur les images de la base alors que la seconde SENSE2 a été faite sur les régions saillantes des images. Pendant ces évaluations, nous avons demandé aux participants d’indiquer la nature (positive, neutre ou négative) et la puissance (elle variait de faible à fort) de l’émotion relative aux images observées. Durant ces deux tests, certaines images ont une catégorisation ambigüe (aucune nature d’émotion n’est majoritaire) malgré le nombre de participants ; 1741 pour SENSE1 et 1166 pour SENSE2. L’une des premières conclusions de l’utilisation des régions saillantes est que 79% des images non catégorisées durant SENSE1 le sont désormais dans l’une des deux classes majoritaires. Le fait de réduire la taille des images à la région saillante permettrait peut-être de réduire interpretation sémantique.

Saliency-Pooling for Human Action recognition

Nicolas Ballas (Mines-Paristech et CEA/LVIC)

We address the problem of action recognition in unconstrained videos. We propose a novel saliency driven pooling that leverages space-time context while being robust toward global space-time transformations. Being robust to such transformations is of primary importance in unconstrained videos where the action localizations can drastically shift between frames. Our pooling identifies regions of interest using video bottom-up structural cues estimated by different saliency functions. It does not require any fixed space-time partition. To combine the different structural information, we introduce an top-down iterative weighting scheme, WSVM (weighted SVM), that determines the optimal bottom-up saliency cues associated with an action model, using top-down information. A new optimization method is proposed to solve the WSVM' highly non-smooth objective function. We evaluate our approach on standard action datasets (KTH, UCF50 and HMDB). Most noticeably, the accuracy of our algorithm reaches 51.8% on the challenging HMDB dataset which outperforms the state-of-the-art of 11% relatively.

L’influence de la couleur sur les mouvements oculaires lors de l’observation de vidéos

Shahrbanoo Hamel (Gipsa-Lab, Grenoble)

Bien que beaucoup d’études de l’attention visuelle considèrent la couleur comme l'un des facteurs importants dans l'orientation du regard, seules quelques études ont examiné son influence sur les mouvements oculaires lors de l’observation de scènes dynamiques naturelles.

Nous avons étudié cette influence en analysant les mouvements oculaires des participants enregistrés lors de l’exploration de vidéos en couleur ou en niveaux de gris.

Dans cette présentation, nous détaillons dans un premier temps les résultats de la comparaison des deux séries de données des mouvements oculaires, en utilisant différentes mesures (dispersion, nombre de clusters, Normalized Saliency Scanpath et divergence de Kullback Leibler). Dans un second temps nous comparons les mouvements oculaires avec deux modèles de saillance visuelle : le premier modèle est basé seulement sur les attributs achromatiques des stimuli (modèle de Marat et al. 2009 et implémentation temps réel de Rahman et al. 2010) et le deuxième modèle est une version modifiée du modèle de Marat prenant en compte des informations chromatiques. Les résultats montrent que même si, globalement, les régions d’intérêts sont communes entre les vidéos en couleur et en niveaux de gris, il existe des différences significatives. En effet, les mesures calculées permettent d’identifier ces différences, qui augmentent au cours du temps. Enfin, les résultats indiquent que le modèle de saillance qui comprend des informations chromatiques, peut mieux prédire les mouvements oculaires enregistrés lors de l'exploitation de vidéos en couleur.

Identification