Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions closes à cette réunion.
19 personnes membres du GdR ISIS, et 13 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 50 personnes.
De nombreux travaux de recherche sont dédiés au développement de mesures de qualité des données multimédia (image, stéréo, vidéo, maillage 3D, etc). Différentes approches ont été proposées dans la littérature avec une exploitation de plus en plus forte de méthodes basées sur l'apprentissage (SVM, ANN, Deep Learning, etc.). Ces méthodes trouvent naturellement différents champs applicatifs. A titre d'exemple, on peut citer leur utilisation pour la reconnaissance de personne où l'objectif est de mesurer la fiabilité des données biométriques ou bien encore l'imagerie médicale pour s'assurer des acquisitions réalisées.
Cette journée, entre thème B et thème D, vise les nouvelles méthodes/approches/paradigmes d'estimation de la qualité et leur exploitation dans les différentes applications. Une attention particulière sera portée aux applications industrielles ou académiques de type sécurité (tatouage, cryptographie, etc.) et/ou compression faisant intervenir l'évaluation de la qualité, sans pour autant exclure les autres domaines.
Présentation invitée : Sebastian Bosse, Fraunhofer Heinrich Hertz Institute, Berlin, Germany
Sébastien Beugnon et William Puech
Mihai Mitrea, Patrick Le Callet et Rania Bensaied
Yana Nehme, Jean-Philippe Farugia, Florent Dupont, Patrick Le Callet et Guillaume Lavoué
Ilyass Abouelaziz, Aladine Chetouani, Mohammed El Hassouni et Hocine Cherifi
Anas Nouri, Christophe Charrier et Olivier Lézoray
Gabriel Meynet, Julie Digner et Guillaume Lavoué
Kais Rouis, Petra-Gomez Krämer et Mickaël Coustaty
Madhukar Bhat, Jean-Marc Thiesse et Patrick Le Callet
Sami Jaballah, Amegh Bhavsar et Chaker Larabi
Sebastian Bosse
Perceptual quality is a key aspect of most if not all visual computing systems. While it is, subjectively, nearly effortless for humans to quickly assess and judge the perceptual properties of images or videos it turns out to be a surprisingly difficult task for machines. Thus, the questions of how to computationally estimate quality as it is perceived by human observers and how to incorporate computational models of visual quality in technical systems remain answered unsatisfactorily. In my talk I present novel neural network-based and end-to-end optimized models for visual quality estimation. By incorporation of a formal definition of distortion sensitivity I propose a framework that relates the functional psychometric outcome of quality assessment to a local weighting that can be used to improve the accuracy of given quality estimators. The resulting models allow for direct practical application in visual computing systems with an example of perceptually optimized bit allocation for video compression. To overcome the lack of interpretability of deep neural networks I will evaluate the relation between the obtained models and traditional (explicit) models of visual perception.
Sébastien Beugnon et William Puech, LIRMM
Le chiffrement sélectif 3D est une solution possible pour protéger des données 3D tout en permettant une prévisualisation de l?objet 3D chiffré. En fonction des paramètres de chiffrement, certaines méthodes peuvent produire des objets 3D selon trois niveaux de confidentialité, à savoir la confidentialité visuelle, la protection suffisante ou transparente. Dans cet exposé nous présentons une nouvelle métrique de confidentialité visuelle des objets 3D chiffrés. Nous présentons tout d?abord une nouvelle base de données d?objets 3D sélectivement chiffrés, Visual Confidentiality Dataset (VCD). Nous présentons ensuite comment automatiser le choix des paramètres des méthodes de chiffrement sélectif selon le niveau de confidentialité souhaité et enfin comment prédire le niveau de confidentialité d'un objet 3D sélectivement chiffré.
M. Mitrea, P. Le Callet et R. Bensaied, Telecom SudParis et LS2N
By specifying well-configured, consensual evaluation conditions, the International Telecommunication Union (ITU) Recommendations serve as a ground in ensuring the reproducibility and comparability of results obtained din various video subjective quality measurements.
For instance, a large category of subjective tests is conducted by presenting the human observer some visual content and by asking him/her to score that content on a scale featuring some semantic labels (e.g. Excellent, Good, Fair, Poor and Bad). The impact of these semantic labels is discussed and detailed in various research studies. On the one hand, some studies state that adjacent ITU labels are characterized by non-uniform semantic distances; yet, such a behavior is not quantified. On the other hand, some studies claim the contrary, i.e. that the semantic of adjacent ITU labels does not impact the results.
The authors previous studies, carried out for 2D and stereoscopic video, and for 5 and 3 levels semantic ? labeled grading scales, brought to light that a bias in MOS computation is induced by these labels and that such a bias can be quantified by some reference coefficients which are independent with respect to the observer?s panel.
Our current presentation has as objective to reconsider these results and to investigate whether and how can they be turned into theoretical and methodological tools allowing for ?canceling? the semantic impact. In other words, our objective is to predict a theoretical MOS (mean opinion score) value whose value would not be impacted by the semantic labels. Specifically, we are presenting and discussing one-to-one-to-one non-linear transformations connecting the scores assigned by the observers on continuous scales, on discrete labeled scales and discrete un-labeled scales.
The presentations is based on a the results obtained from 640 human observers, evaluating 2D and stereoscopic video content and shows that corrections up to 20% in the MOS should be considered in order to cancel the semantic impact.
Yana Nehme, Jean-Philippe Farugia, Florent Dupont, Patrick Le Callet et Guillaume Lavoué, LIRIS
Numerous methodologies for subjective quality assessment exist in the field of image processing. In particular, the Absolute Category Rating with Hidden Reference (ACR-HR) and the Double Stimulus Impairment Scale (DSIS) are considered two of the most prominent methods for assessing the visual quality of 2D images and videos. Are these methods valid/accurate to evaluate the perceived quality of 3D graphics data? Is the presence of an explicit reference necessary, due to the lack of human prior knowledge on 3D graphics data compared to natural images/videos? To answer these questions, we compare these two subjective methods (ACR-HR and DSIS) on a dataset of high-quality colored 3D models, impaired with various distortions. These subjective experiments were conducted in a virtual reality (VR) environment. Our results show differences in the performance of the methods depending on the 3D contents and the types of distortions.We show that DSIS outperforms ACR-HR in term of accuracy and points out a stable performance. Results also yield interesting conclusions on the importance of a reference for judging the quality of 3D graphics. We finally provide recommendations regarding the influence of the number of observers on the accuracy.
Ilyass Abouelaziz, Aladine Chetouani, Mohammed El Hassouni, Hocine Cherifi
Dans ce travail, nous proposons une méthode sans référence pour évaluer la qualité visuelle des objets 3D. Notre méthode est basée sur des réseaux de neurones convolutifs déjà entraînés (Pre-trained CNN). Nous utilisons les réseaux : VGG, Alexnet et Resnet. Ces derniers sont alimentés par des patches soigneusement sélectionnés en fonction de leur niveau de saillance. Pour ce faire, des vues 2D sont extraites du maillage 3D et du maillage de saillance correspondant. Les vues sont divisées en patches de taille fixe qui sont filtrées à l'aide d'un seuil de saillance. Seuls les patches les plus saillants sont sélectionnés en tant qu?entrées des modèles CNN. Ensuite, trois réseaux de neurones convolutifs sont utilisés pour l'apprentissage. Chaque réseau est ajusté (fine-tuned) et estime séparément un niveau de qualité. La somme pondérée des niveaux de qualité estimés est finalement calculée pour estimer le score de qualité final. Les expériences sont menées sur une base de données d?évaluation de la qualité visuelle des objets 3D. Les résultats obtenus sont comparés à l?état de l?art et permettent de montrer la pertinence de la méthode proposée.
Anas Nouri, Christophe Charrier et Olivier Lézoray, GREyC
Après le son, les images et les vidéos, les modèles 3D représentés par des maillages polygonaux constituent le contenu émergent actuel de part les avancées technologiques récentes dans le domaine de l'acquisition 3D. Les maillages 3D sont souvent amenés à subir plusieurs distorsions au cours de diverses étapes (de pré-traitement ou post-traitement) telles que l?acquisition, la compression, ou la transmission.
Ces traitements peuvent dégrader la géométrie des maillages et ainsi affecter leur rendu visuel nécessaire pour un observateur humain qui se situe généralement en fin de chaine de traitement. Une approche d?évaluation sans référence de la qualité des maillages 3D basée sur la saillance visuelle et la rugosité, nommée BMQI, sera introduite. Disposant d'un maillage 3D non coloré, cette métrique (indépendante de la vue) est à apte à évaluer la qualité perçue d?un maillage 3D sans accéder à sa version de référence similairement à un observateur humain.
Gabriel Meynet, Julie Digner et Guillaume Lavoué, LIRIS
In this paper, we present PC-MSDM, an objective metric for visual quality assessment of 3D point clouds. This full-reference metric is based on local curvature statistics and can be viewed as an extension for point clouds of the MSDM metric suited for 3D meshes. We evaluate its performance on an open subjective dataset of point clouds compressed by octree pruning; results show that the proposed metric outperforms its counterparts in terms of correlation with mean opinion scores.
Kais Rouis, Petra-Gomez Krämer et Mickaël Coustaty
Image hashing becomes a vital process to build trustworthy digital technologies. Particularly, a content-based signature approach aims at securing the content received by a consumer and guarantee that crucial information have not been forged or modified from the original version. One needs to analyse accordingly the visual patterns of a given image which requires complemen- tary measurements. For instance, the structural information would be efficiently captured using a transform based feature construction. We propose indeed a robust image hashing method where salient objects are extracted, and the resulting features construct intermediary hash values. The robustness of the proposed hashing is further evaluated under different content-preserving tests, e.g., compressed and noisy versions of the original image should be recognized among different conditions. Moreover, applied content forgeries should be detected to ensure the sensibility constraint against tampering operations.
The objective assessment of encoding performance is a key aspect of video delivery optimization. Objective metrics typically do not address fully the different viewing distances and behavior of compression artifacts being subjected to perceptual changes in video. This poses a daunting task of optimizing compression for video delivery systems for specific viewing conditions and perceptual optimization. In this talk we discuss accuracy of typically used objective metrics for judging performance of a HVS based pre-processing for observers at different viewing scenarios.
Sami Jaballah et Chaker Larabi, XLIM
L'effet de masquage est l'une des propriétés perceptuelles le plus importante qui peut être modélisée en estimant un seuil adaptatif appelé Just Noticeable Difference (JND) se référant à la différence maximale non perçue par le système visuel humain (SVH).
Les modèles d'estimation JND existants dans la littérature ne prennent en compte que les indices liés aux images et vidéos 2D ou 3D qui ne permettent pas de modéliser avec précision l'effet de masquage visuel du SVH lors de la visualisation de scènes à 360 degrés.
Dans cette présentation, une nouvelle méthode qui adapte les modèles 2D-JND pour estimés les seuils JNDs pour des images 360 est proposée. L?idée principale est d'estimer les seuils de models 2D-JND via des Viewports plutôt que de l'appliquer directement sur toute l'image 360. Pour ce faire, chaque image 360 est partitionnée en Viewports avec des tailles fixes et des positions de telle façon que les Viewports voisins se chevauchent. Ensuite, un modèle 2D-JND est appliqué sur chaque Viewport de l?image et pour réduire les limites visibles entre les Viewports, un processus de fusion alpha est appliqué. Enfin, les cartes JND basées sur Viewport sont rétroprojetées pour obtenir la carte 360-JND final.
Un test subjectif a été réalisé afin de valider visuellement la performance de l'approche proposé pour estimer les seuils de JND sur des images 360. Ce test a démontré que lorsqu'elle est appliquée à des images à 360 degrés, la méthode proposée surpasse les modèles 2 D-JND en matière de préférence des observateurs au même niveau de bruit.
Date : 2019-11-29
Lieu : Salle de conférence de la délégation CNRS Paris-Villejuif - Site d'Ivry-sur-Seine
Accès : MAP
Métro 7 - station Porte d'Ivry
Thèmes scientifiques :
B - Image et Vision
D - Télécommunications : compression, protection, transmission
Inscriptions closes à cette réunion.
Accéder au compte-rendu de cette réunion.
(c) GdR IASIS - CNRS - 2024.