Exploitation des métriques à référence réduite et sans référence dans les systèmes d'imagerie

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

20 personnes membres du GdR ISIS, et 14 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 40 personnes.

Annonce

La mesure de la qualité des images/vidéos est une problématique de recherche à laquelle se trouvent confrontée bon nombre d’équipes à la fois académiques et industrielles. Une solution consiste à réaliser une notation subjective de la qualité d’une image (par rapport à une référence ou sans référence) par un panel d’observateurs. Or la mise en place de tels tests psychophysiques est fastidieuse et est en pratique peu appliquée, car elle doit respecter des normes clairement établies. Des solutions algorithmiques (i.e., mesures objectives) ont alors été développées afin d’éviter le recours à de tels tests. Certaines de ces mesures intègrent à divers degrés des modélisations du système visuel humain (SVH) afin de reproduire le plus fidèlement possible le comportement d’un observateur.

Cette journée est ouverte à toutes les propositions relatives aux métriques d’évaluation de qualité avec ou sans l’intégration de modèle du SVH. Le programme de cette journée devra ainsi permettre aux participants de partager des connaissances sur l’utilisation des métriques de qualité lorsque l’on dispose d’une image de référence, d’une représentation partielle de cette image de référence ou d’aucune référence. L’accent sera néanmoins mis sur les métriques à référence réduite ou sans référence et leur application dans divers domaines comme la vidéosurveillance, la compression, la transmission, etc. Une cartographie des derniers développements du domaine sera ainsi offerte aux participants.

Organisateurs:

Chaker LARABI (XLIM), chaker.larabi@univ-poitiers.fr
Frédéric MORAIN-NICOLIER (CRESTIC), frederic.nicolier@univ-reims.fr
Didier NICHOLSON (THALES TCS), didier.nicholson@fr.thalesgroup.com

Programme

Accueil et lancement de la journée (10:00-10:15)

10:15 - 11:00 - Requirements pour plateformes embarquées
- Stéphane Valente, Arnaud Bourge (STMicroelectronics)

11:00 - 11:30 - Détermination locale de la netteté d’un système imageur par analyse en ondelettes
- Lâmân Lelégard (MATIS, IGN)
11:30-12:00 - Indices de netteté par mesure de cohérence de phase
- Arthur Leclaire (MAP5, Université Paris Descartes)
12:00 - 12:30 - Image Quality Estimation based on Distortion Classification
- Aladine Chetouani (L2TI, Université Paris 13)
14:00-14:30 - Caractérisation des distorsions par l’exploitation des points d’intérêt
- Michaël Nauge (XLIM-SIC, Université de Poitiers)
14:30-15:00 - Mesure agnostique de la qualité des images sans référence
- Christophe Charrier (GREyC, Université de Caen)
15:00-15:30 - Mesure sans référence de la qualité des vidéos télédiffusées à l'aide des cartes de saillance
- Hugo Boujut (LABRI, Université de Bordeaux)
15:45-16:15 - T-V-Model, un model paramétrique standardisé pour estimer la qualité audiovisuelle des services IPTV.
- Marie-Neige Garcia (Telekom Innovation Laboratories & TU Berlin/AIPA, Allemagne)
16:15-16:45 - Repousser les limites de l’identification faciale en contexte de vidéo-surveillance
- Cécile Fiche (GIPSA-lab, Grenoble)
16:45-17h15 - Détection automatique d’erreurs de segmentation pour la reconnaissance par l’iris
- Thierry Lefevre (Thales / Télécom SudParis)
17:15-17:30 - Conclusion

Résumés des contributions

Cette journée, traitant des métriques de qualité avec référence réduite et sans référence, a réuni cinquante participants appartenant aux mondes académique et industriel. Un programme dense a permis d'explorer les problématiques industrielles ainsi que la recherche académique qu'elle soit fondamentale ou appliquée. La réussite de cette journée montre l'intérêt porté à la problématique de mesure et d'optimisation de la qualité avec des domaines d'application de plus en plus nombreux et variés.

Requirements pour plateformes embarquées

Stéphane Valente, Arnaud Bourge (STMicroelectronics)

Les métriques de qualité d'image sont largement utilisées dans le monde académique et notamment dans le domaine de la compression image/video. Mais leur usage reste plus restreint dans une phase de déploiement industriel d'un système, notamment pour les circuits grand public (mobile, tv). Sur la base de quelques exemples concrets, nous montrerons quels types de traitement sont implantés dans un circuit pour mobile, quelles métriques sont utilisées (ou pas) pour les qualifier et notre retour d'expérience les concernant. Nous en dériverons des recommandations et des questions ouvertes pour les participants.

Détermination locale de la netteté d’un système imageur par analyse en ondelettes

Lâmân Lelégard (MATIS, IGN)

L’estimation de la résolution d’un système imageur passe habituellement par des mesures en laboratoire ou, dans le cas de l’imagerie aérienne, par un vol au dessus de cibles au sol. L’approche proposée ici exploite directement les images d’une mission aérienne et permet donc de s’affranchir d’une calibration en laboratoire ou d’un vol supplémentaire. Une mesure qualitative de la netteté est effectuée sur des blocs de 16x16 pixels en considérant les zones de contours de chaque image mises en valeur dans les premiers niveaux de la décomposition en ondelettes de Haar. En supposant que les contours apparaissent de manière homogène dans l’ensemble des images, une carte de netteté relative est calculée par accumulation sur les images d’une mission. Enfin, une étape d’étalonnage permet une quantification de la netteté locale du système imageur.

Indices de netteté par mesure de cohérence de phase

Arthur Leclaire (MAP5, Université Paris Descartes)

Dans cet exposé, on présentera la construction de trois mesures de cohérence de phase : la cohérence globale de phase GPC de [Blanchet, Moisan, Rougé, 2008], l'indice de netteté SI de [Blanchet, Moisan, 2011] et le nouvel indice S. On exposera brièvement leurs propriétés théoriques puis on montrera empiriquement leur comportement vis-a-vis du bruit et du flou ce qui validera l'interprétation de ces mesures en tant qu'indices de netteté. On terminera en montrant comment on peut exploiter ces mesures dans le choix d'un paramètre de déconvolution Wiener.

Image Quality Estimation based on Distortion Classification

Aladine Chetouani (L2TI, Université Paris 13)

Numerous Image Quality Measures (IQMs) have been proposed in the literature with different degrees of success. While some IQMs are more efficient for particular artifacts, they are inefficient for others. The researchers in this field agree that there is no universal IQM which can efficiently estimate image quality across all degradations. In this paper, we overcome this limitation by proposing a new approach based on a degradation classification scheme allowing the selection of the “most appropriate” IQM for each type of degradation. To achieve this, each degradation type is considered here as a particular class and the problem is then formulated as a pattern recognition task. The classification of different degradations is performed using simple Linear Discriminant Analysis (LDA). The proposed system is developed to cover a very large set of possible degradations commonly found in practical applications. The proposed method is evaluated in terms of recognition accuracy of degradation type and overall image quality assessment with excellent results compared to traditional approaches. An improvement of around 15% (in terms of correlation with subjective measures) is achieved across different databases.

Caractérisation des distorsions par l’exploitation des points d’intérêt

Michaël Nauge (XLIM-SIC, Université de Poitiers)

Dans les systèmes d'imagerie, garantir et maximiser le confort de visualisation des contenus multimédia est un réel défi. La visualisation et la qualité des images sont des éléments clés dans les systèmes experts, dans des tâches de diagnostic et de prise de décision, aussi bien en médecine qu'en sécurité. Mais c'est également le cas dans les applications grand public, très gros consommateur de bande passante et de contenu multimédia. Pour garantir ce confort visuel i.e. qualité de l'expérience, il faut disposer d'outils objectifs capables de caractériser la qualité des images tout en respectant les contraintes liées à l’application. Les contraintes d'usage sont la mobilité par exemple, où l'utilisation d'appareils mobile/sans fil est maintenant omniprésente, ce qui nécessite de compresser les images mais également de les transmettre sur des réseaux bruités et changeants. Ces traitements introduisent diverses distorsions dans l'image et affectent donc la qualité perçue des images reçues.

Dans ce travail, nous proposons une métrique objective, capable de mesurer les différentes distorsions introduites par la compression et la transmission. Cette métrique est à référence réduite afin de respecter les contraintes imposées par la transmission car l'image de référence n'est jamais accessible côté récepteur. La mesure des distorsions n'utilise que 22 octets extraits de l'image de référence et est basée sur des évolutions structurelles de l'image (contours, coins). Ces statistiques sont extraites par un détecteur de points d'intérêt largement utilisé dans d'autres domaines pour sa rapidité d'exécution et son pouvoir de caractérisation. D'un point de vue applicatif, cette métrique a été intégrée en tant qu'organe décisionnel, afin de minimiser la visibilité d'artefacts dans une chaîne de transmission JPWL robuste à travers un canal MIMO réaliste. L'augmentation du confort visuel a été mesurée par une campagne de tests subjectifs permettant de valider cette métrique.

Mesure agnostique de la qualité des images sans référence

Christophe Charrier (GREyC, Université de Caen)

La mesure de la qualité des images sans-référence est un sujet de recherche pour lequel de plus en plus de solutions tendent à émerger. L'une des difficultés majeures sous-jacentes réside dans l'indisponibilité de la source d'origine. Les travaux existants portent (pour la majorité) sur une approche spécifique aux distorsions. Dans ce cas, l'algorithme quantifie une ou plusieurs distorsions spécifiques sans prendre en compte les éventuelles interactions existantes, et délivre une note finale en fonction de ces quantifications.

Une deuxième approche se fonde sur l'hypothèse que le fonctionnalités du système visuel humain ont évolué depuis le début de l'existence de l'être humain de manière à s'adapter aux propriétés statistiques du monde environnant, il est alors possible d'utiliser ces statistiques pour juger la qualité d'une image. Il est ainsi fait référence aux Statistiques de Scènes Naturelles (SSN).

L'indice de qualité présenté s'intègre dans cette deuxième idée. Cependant, au lieu de modéliser le comportement de caractéristiques calculées dans le domaine DCT, l'idée est de dériver un modèle généralisé des SSN utilisant les coefficients DCT locaux, et de transformer ensuite les paramètres du modèle en caractéristiques permettant de prédire la qualité des images. Finalement un modèle probabiliste généralisé est obtenu à partir de ces caractéristiques, permettant ainsi de quantifier la qualité des images.

Cette approche repose sur la capacité de l'algorithme d'évaluation de la qualité des images à apprendre la façon dont le modèle SSN varie le long des différents niveaux perceptuels des distorsions des images. L'algorithme est directement entraîné sur le modèle statistique paramétrique généralisé des coefficients DCT d'une image à divers niveaux de résolution.

Quasiment aucune utilisation directe des modélisations perceptuelles spécifiques existantes (telles que les décompositions corticales de l'aire V1 du cortex, les effets de masquage, etc.) ne sera effectuée. Néanmoins, l'approche proposée se veut perceptuellement cohérente puisque les modèles des SSN se veulent le reflet des propriétés statistiques du monde environnant influençant l'évolution des fonctions perceptuelles du SVH.

Mesure sans référence de la qualité des vidéos télédiffusées à l'aide des cartes de saillance

Hugo Boujut (LABRI, Université de Bordeaux)

Dans cette présentation nous exposerons nos recherches sur la mesure sans référence de la qualité des vidéos. Ces travaux ont été effectués dans le cadre d'un projet de recherche mené conjointement par le LaBRI et la société Audemat WorldCast Systems. L'objectif était de mesurer sans référence la qualité des vidéos télédiffusées (IP et DVB-T). Une métrique a été développée pour mesurer la qualité perçue lorsque le flux vidéo a été altéré par des pertes de transmission. Cette métrique "Weighted Macro-Block Error Rate" (WMBER) est fondée sur la mesure de la saillance visuelle et la détection des macro-blocs endommagés. Le rôle de la saillance visuelle est de pondérer l'importance des erreurs détectées. Certaines améliorations ont été apportées à la construction des cartes de saillance spatio-temporelle. En particulier, la fusion des cartes de saillance spatiale et temporelle a été améliorée par rapport à l'état de l'art. Par ailleurs, plusieurs études ont montré que la sémantique d'une scène visuelle avait une influence sur le comportement du système visuel humain. Il apparaît que ce sont surtout les visages humains qui attirent le regard. C'est la raison pour laquelle nous avons ajouté une dimension sémantique aux cartes de saillance spatio-temporelle. Cette dimension sémantique est essentiellement basée sur le détecteur de visage de Viola & Jones. Pour prédire la qualité perçue par les utilisateurs, nous avons utilisé une méthode par apprentissage supervisé. Cette méthode offre ainsi la possibilité de prédire la métrique subjective "Mean Opinion Score" (MOS) à partir de mesures objectives telles que le WMBER, PSNR ou SSIM. Une expérience psycho-visuelle a été menée avec 50 sujets pour évaluer ces travaux. Cette base de données vidéo Haute-Définition est en cours de transfert à l'action COST Qualinet. Ces travaux ont également été évalués sur une autre base de données vidéo (en définition standard) provenant de l'IRCCyN.

T-V-Model, un model paramétrique standardisé pour estimer la qualité audiovisuelle des services IPTV

Marie-Neige Garcia (Telekom Innovation Laboratories & TU Berlin/AIPA, Allemagne)

Le T-V-Model a pour objectif d’estimer automatiquement la qualité audiovisuelle perçue par les utilisateurs des services IPTV (Internet Protocol TeleVision). Il prend en entrée une description paramétrique du flux audiovisuel encrypté, le bitstream, et ne requiert aucun signal de référence.

Le T-V-Model a été développé à partir des résultats de nombreux (>10) tests subjectifs et couvre les principales dégradations rencontrées dans les services IPTV, i.e. les erreurs de compression et de transmission.

Le T-V-Model a été évalué au cours de la compétition de standardisation UIT (Union Internationale des Télécommunications) et présente une corrélation de 0.92 avec les résultats de tests subjectifs inconnus du model.

Repousser les limites de l’identification faciale en contexte de vidéo-surveillance

Cécile Fiche (GIPSA-lab, Grenoble)

Les systèmes d’identification de personnes basés sur le visage deviennent de plus en plus répandus et trouvent des applications très variées, en particulier dans le domaine de la vidéosurveillance. Or, dans ce contexte, les performances des algorithmes de reconnaissance faciale dépendent largement des conditions d’acquisition des images, on parle principalement ici de maladresse de mise au point pouvant entraîner du flou sur l’image ou bien d’erreurs liées à la compression et faisant apparaître des effets de blocs. Le travail présenté portera donc sur la reconnaissance de visages à partir d’images acquises à l’aide de caméras de vidéosurveillance, présentant des artéfacts de flou ou de blocs. Nous présenterons une nouvelle approche permettant d’améliorer de façon significative la reconnaissance des visages avec un niveau de flou élevé ou présentant de forts effets de blocs. La méthode est basée sur l’utilisation de métriques spécifiques qui permettent d’évaluer la qualité de l’image d’entrée et d’adapter en conséquence la base d’apprentissage des algorithmes de reconnaissance.

Détection automatique d’erreurs de segmentation pour la reconnaissance par l’iris

Thierry Lefevre (Thales / Télécom SudParis)

La reconnaissance par l’iris consiste à identifier une personne en se basant sur la texture unique d'un de ses iris. Ce procédé s’appuie sur une étape de segmentation pour isoler la région de l’iris dans l’œil et de codage de l'information issue de la région segmentée (supposée être de la texture d'iris) afin d’effectuer la reconnaissance.

Ce procédé de segmentation doit être utilisé sur de très grandes bases de données de manière autonome. Or, les images mal segmentées vont très négativement affecter les performances de reconnaissances de l’ensemble du système car elles vont artificiellement générer de fausses informations. Il est donc critique de pouvoir identifier de manière automatique les images pour lesquelles l’étape de segmentation a échoué afin de ré-acquérir l’image si cela est possible, ou bien dans le cas contraire, de re-segmenter l’image avec d’autres algorithmes ou d’autres réglages.

Notre proposition consiste à utiliser un ensemble de métriques de qualité corrélées aux performances de reconnaissance intrinsèques des images segmentées. L’idée étant que si une image a été mal segmentée, elle ne ressemblera « a rien » et aura donc de mauvais taux de reconnaissance indépendamment des images qui lui sont opposées. Cet ensemble de métriques va nous permettre d'étiqueter les images pour lesquelles l’algorithme de segmentation a échoué.

Identification