Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions closes à cette réunion.
16 personnes membres du GdR ISIS, et 3 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 30 personnes.
Cette journée est commune entre le thème B et le thème D.
10h00-17h00, Salle C48, Télécom Paris Tech, 46 Rue Barrault, 75013 Paris
Jenny Benois-Pineau, Matthieu Cord, Georges Quénot et William Puech
Le projet IRIM (Indexation et Recherche d'Information Multimédia) a pour objectif d'encourager et d'aider les équipes de recherche françaises à participer aux campagnes d'évaluation TRECVID, en particulier en favorisant les collaborations entre les équipes et les participations conjointes. Le groupe IRIM a participé cette année aux tâches « Semantic Indexing » (annotation de concepts dans des plans vidéo) et « Instance Search » (recherche d’éléments à partir d’exemples dans une collection de vidéos). 16 équipes françaises ont collaboré cette année pour cette participation.
Nous présenterons un bilan de cette participation et nous invitons les différentes équipes ayant contribué à faire des présentations sur leur contribution. Les propositions sont attendues pour le vendredi 11 janvier 2013 au plus tard. Merci d’envoyer vos propositions (titre, auteurs, affiliation, résumé de 15 lignes) sur ce sujet à Georges.Quenot@imag.fr.
De nos jours de grande quantité de données numériques visuelles (images, vidéos et objets 3D) sont transmises, archivées et visualisées. De plus, il est très fréquent maintenant que ces données visuelles soient structurées sous forme de bases de données prenant le nom de bases de données visuelles (BDDV). Notons que les tailles de ces BDDV sont de plus en grandes, du fait du nombre d’images ou de vidéos contenues dans ces bases mais également du fait de l’augmentation de la résolution de ces données avec l’apparition de l’UHD.
Les accès à ces BDDV se font bien souvent à distance, par conséquent les données doivent compressées et protégées à la source en appliquant des méthodes de tatouage ou de chiffrement sélectif. En effet, même si les accès sont sécurisés et que les bandes passantes des réseaux continuent à augmenter, nous sommes toujours obligés de passer par des étapes de compression et de protection.
Un nouveau challenge consiste alors à effectuer des requêtes sur ces BDDV avec des images ou des vidéos comprimées, chiffrées et ou tatouées. Du coup la qualité des caractéristiques extraites ne peut plus être la même qu’avec une approche plus traditionnelle ou tout est au format original.
Lors de cette journée nous effectuerons un point sur l’état actuel des recherches dans le domaine liant l’indexation à la compression, la protection et la qualité des images, et nous tenterons de dresser un panorama de la recherche en France dans ces domaines.
Toutes les propositions de présentation académiques ou industrielles sur ces sujets seront les bienvenues. Les propositions sont attendues pour le vendredi 11 janvier 2013 au plus tard (titre, auteurs, affiliation, résumé de 15 lignes). Sans attendre cette date limite, vous pouvez transmettre aux organisateurs vos propositions d'intervention (même succinctes) à William.Puech@lirmm.fr afin que nous puissions rapidement construire le programme
12h30 Repas
Georges Quénot, LIG, Grenoble.
The main goal of the TREC Video Retrieval Evaluation (TRECVID) is to promote progress in content-based analysis of and retrieval from digital video via open, metrics-based evaluation. TRECVID is a laboratory-style evaluation that attempts to model real world situations or significant component tasks involved in such situations. Six tasks were proposed in 2012: Semantic indexing (SIN), Known-item search (KIS), Content-based copy detection (CCD), Surveillance event detection (SED), Instance search (pilot) (INS) and Multimedia event detection (MED). 60 teams from various research organizations — 25 from Asia, 18 from Europe, 12 from North America, 2 from South America, and 3 from Australia — completed one or more of six proposed tasks. Further details about each particular group’s approach and performance for each task can be found in that group’s paper in the TRECVID publications webpage: http://www-nlpir.nist.gov/projects/tv2012/tv2012.html
Hervé Le Borgne, CEA LIST, Saclay.
Cette présentation résume la contribution du CEA LIST à la tâche « instance search » de la campagne TrecVid 2012. Nous limitons l’exposé aux points se différenciant des runs IRIM généraux :
- présentation détaillée des descripteurs propres au LIST.
- expériences préliminaires menées sur le corpus de l’année précédente (2011) qui ont permis de déterminer les stratégies les plus efficaces et d’atteindre ainsi des scores parmi les meilleurs avec une bonne efficacité calculatoire.
- test de significativité des résultats pour la campagne 2012.
Tiberius Strat, Alexandre Benoit, Hervé Bredin, Georges Quénot, Patrick Lambert. Talk by Tiberius Strat, LISTIC, Annecy.
We deal with the issue of combining dozens of classifiers into a better one, for concept detection in videos. We compare three fusion approaches that share a common structure: they all start with a classifier clustering stage, continue with an intra-cluster fusion and end with an inter-cluster fusion. The main difference between them comes from the first stage. The first approach relies on a priori knowledge about the internals of each classifier (low-level descriptors and classification algorithm) to group the set of available classifiers by similarity. The second and third approaches obtain classifier similarity measures directly from their output and group them using agglomerative clustering for the second approach and community detection for the third one.
Matthieu Cord, Nicolas Thome, Marc Law, Sandra Avila. Talk by Matthieu Cord, LIP6, Paris.
The Bag-of-(Visual)-Words (BoW) model is the most widely used approach to represent images. BoW relies on the quantization of local descriptors and their aggregation into a single feature vector. The main steps, such as the visual codebook, coding, and pooling, will be introduced. The parametrization of the whole pipeline will be discussed, and the impact of the main parameters experimentally evaluated. Additionally, our BossaNova pooling strategy will be presented to be integrated in the 2013 IRIM LIP6 runs.
Bernard Mérialdo, Eurecom, Sophia-Antipolis.
In the TRECVID Semantic Indexing task, the videos are linked to a short metadata description. This metadata is rarely used in the detection of concepts. We present some experiments which explore the impact of the uploader field of the metadata. It happens that there is an overlap between the uploaders of the development and the test data, so that it is possible to build a model of the uploader interests and include it in the prediction of the test video. We show that such a model is able to bring a substantial improvement in the detection rate of the concepts. Furthermore, by using the runs submitted by other participants, we show that their runs can be improved as well using this uploader model. Finally, by analyzing the results of the SIN runs by all participants, we show that all SIN systems implicitly use the visual similarity induced by uploaders.
Teddy FURON, INRIA Rennes
Content-Based Image Retrieval Systems used in forensics related contexts require very good image recognition capabilities. Therefore they often use the SIFT local feature description scheme as its robustness against a large spectrum of image distortions has been assessed. In contrast, the security of SIFT is still largely unexplored. We investigate how to conceal images from the SIFT-based recognition process by designing very SIFT-specific attacks. A copy-detection oriented experimental study using a database of 100,000 real images together with a state-of-art image search system shows these strategies are effective. This is a threat against systems, endangering forensics investigations.
Hugo BOUJUT, Vincent BUSO et Jenny BENOIS-PINEAU, LaBRI, Bordeaux
Dans cette présentation nous exposerons nos recherches sur la reconnaissance d'objet dans des flux vidéos issue d'une caméra portée. Plus exactement, notre objectif est la détection des objets manipulés lors des tâches de la vie quotidienne. La caméra portée offre ainsi un point de vue privilégié sur l'action qui se déroule. Pour discriminer l'objet manipulé des autres objets présents dans la scène, nous proposons l'utiliser des cartes de saillance. Ces cartes de saillance tentent de représenter l'attention visuelle d'un observateur sur la scène. Dans cet exposé, nous commencerons par présenter un bref état de l'art des méthodes de reconnaissance basées sur des caractéristiques psychovisuelles. Ensuite, nous introduirons les principales méthodes de modélisation de la saillance visuelle. Nous parlerons également du modèle de saillance dit "géométrique" que nous avons proposé pour tenir compte des phénomènes anticipatoires du mouvement de la caméra. Puis, nous décrirons comment nous avons modifié les cartes de saillance pour mieux les adapter à la reconnaissance d'objet. Grâce à une expérience psychovisuelle menée au LaBRI, nous montrerons les différences qui existent entre l'attention visuelle de l'acteur de la vidéo et celle du spectateur. Pour finir, nous présenterons les résultats obtenus sur les bases de vidéos IMMED et GTEA.
Sarra KOUIDER, Marc CHAUMONT et William PUECH, LIRMM, Montpellier
La stéganographie est lart de communication secrète. Lobjectif est de dissimuler une information secrète dans un médium anodin sans quelle ne puisse être détectée. La stéganographie connaît ses premières prémices à lantiquité, mais les applications dans le monde numérique datent seulement dune dizaine années. De nos jours, avec la généralisation dinternet et lexpansion des réseaux sociaux, la stéganographie a pris de lampleur dans les supports numériques (fichiers audio, vidéo ou image). Ils représentent des supports privilégiés pour la transmission et la visualisation dinformations. Face à un tel engouement pour cet art, plusieurs philosophies de conception de schéma stéganographique ont été proposées. La stéganalyse est à la stéganographie ce que la cryptanalyse est à la cryptographie. Son objectif est de déceler la présence de message secret au sein des supports suspicieux. Les techniques de stéganalyse actuelles sont de plus en plus sophistiquées. Elles utilisent des outils de classification plus complexes qui font appel à de grands espaces caractéristiques sur de grandes Bases de données visuelles (BDV), ce qui représente un nouveau challenge pour la stéganographie. Pour répondre à un tel challenge, nous présenterons lors de cette présentation une nouvelle méthode de stéganographie pour BDV basé oracle. Lapproche proposée exploite les informations acquises par un ensemble de classifieurs FLD (utilisé habituellement pour la stéganalyse) pour linsertion de messages secrets au sein de grands BDV.
Olivier LE MEUR, IRISA, Rennes
Jean-Marc GAFFIE, Philippe CARRE et Philippe GABORIT, XLIM-SIC, Poitiers
Le tatouage numérique a pour but d'implanter des marques dans un support et de rendre ces marques indécelables et résistantes.Les techniques d'enfouissement apportent une certaine résistance , mais on peut améliorer la robustesse des données en utilisant des codes correcteurs d'erreur. Dans cette étude, le but a été de tester les codes en métrique rang et leurs apports par rapport à certain type d'attaque. Les codes en métrique rang sont des codes qui corrigent non pas en fonction du poids de Hamming de l'erreur mais en fonction du rang de l'erreur. Donc, si on a une erreur avec une structure particulière , alors ce type de code sera meilleur qu'un code classique. Dans cette étude, la métrique rang est utilisée avec une insertion par étalement de spectre sur la décomposition en ondelette d'une image.
Date : 2013-01-17
Lieu : Télécom ParisTech
Thèmes scientifiques :
B - Image et Vision
D - Télécommunications : compression, protection, transmission
Inscriptions closes à cette réunion.
Accéder au compte-rendu de cette réunion.
(c) GdR IASIS - CNRS - 2024.