Bilan TRECVID 2013 et préparation TRECVID 2014.

Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.

Inscriptions closes à cette réunion.

Inscriptions

13 personnes membres du GdR ISIS, et 5 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 30 personnes.

Annonce

Le consortium IRIM GDR-ISIS participe depuis 2008 au défi international TRECVID sur l'évaluation des systèmes d'indexation et de recherche par le contenu dans les documents vidéos à grande échelle (http://www-nlpir.nist.gov/projects/tv2013/tv2013.html) assurant ainsi la reconnaissance et la visibilité mondiale de la recherche française dans ce domaine.

Cette année, 12 équipes françaises ont collaboré dans le cadre d'IRIM pour une participation conjointe à la campagne internationale. Sur la tâche de détection de concepts, IRIM a obtenu la quatrième place sur 26 participants. Sur la tâche de recherche d'instance, la participation d'IRIM a été dans la moyenne. Les membres du groupe IRIM présenteront les éléments avec lesquels ils ont contribué : descripteurs, post-traitements, classification, fusion et ré-ordonnancement. Un bilan sur la participation d'IRIM à TRECVID 2013 et une discussion sur la participation d'IRIM à TRECVID 2014 sont également prévues.

Merci d'envoyer vos propositions d'exposés à Georges Quénot <Georges.Quenot @imag.fr>.

Programme

Introduction.
Georges Quénot.

Image Image classification using object detector.
Thibaut Durand, Nicolas Thome, Matthieu Cord.

Un formalisme unifié pour les descripteurs locaux
Olivier Kihl, David Picard,

Présentation générale de TRECVid 2013 et de la tâche d'indexation sémantique
Georges Quénot, George Awad, Paul Over, Alan Smeaton et Wessel Kraaij

IRIM / Quaero à la tâche d'indexation sémantique de TRECVid 2013
Georges Quénot et beaucoup d'autres

Tâche Instance Search à TRECVid 2013
Boris Mansencal, Jenny Benois-Pineau

Meta-Tracking pour l’analyse automatique de scène
Y Benezeth1 P-M Jodoin Yi Wang

Utilisation d’une approche « sacs de mots » pour la caractérisation temporelle de vidéos.
S.T. Strat, A. Benoit, P. Lambert

Descripteurs spatio-temporels « sacs de mots » SIFT avec pré-traitement rétinien
S.T. Strat, A. Benoit, P. Lambert

Discussion : préparation de TRECVid 2014
Toutes les personnes intéressées.

Résumés des contributions

Introduction.
Georges Quénot.

Titre : Présentation générale de TRECVid 2013 et de la tâche d'indexation sémantique
Auteurs : Georges Quénot, George Awad, Paul Over, Alan Smeaton et Wessel Kraaij

Titre : IRIM / Quaero à la tâche d'indexation sémantique de TRECVid 2013
Auteurs : Georges Quénot et beaucoup d'autres

Titre : Un formalisme unifié pour les descripteurs locaux
Auteurs : Olivier Kihl, David Picard,
Résumé : Dans cet exposé, nous présentons un formalisme unifié pour les
descripteurs locaux. Ce formalisme repose sur la décomposition d'un
descripteur en trois étapes : extraction de primitive ; Codage de la
primitive ; Agrégation locale des primitives codée. Ce formalisme permet
d'écrire tous les descripteurs classiques de la littérature, tels que
les HOG, HOF et MBH. De plus, il permet d'étendre ces descripteurs en
ajoutant de nouvelles primitives, de nouveaux codages ou encore de
nouvelles méthodes d'agrégations locales. À titre d'exemple, nous avons
proposé d'étendre le descripteur HOG en changeant l'étape d'agrégation
en cellule par une méthode d'agrégation basée sur des fonctions
d'approximation (bases de polynômes dans notre cas). Nous avons aussi
étendu le descripteur HOF en changeant l'étape de codage en orientation
par un codage simple rectification. Nous obtenons des descripteurs plus
compacts avec des performances équivalentes.
Ce formalisme permet une meilleure exploration de l'espace des
descripteurs, afin d'obtenir des descripteurs plus robustes ou plus
adaptés à la nature des images ou vidéos pour un problème donné.

Titre : Image classification using object detector.
Auteur : Thibaut Durand, Nicolas Thome, Matthieu Cord.
Résumé : Image categorization is one of the most competitive topic in computer vision and image processing.Pioneer works in that direction were proposed with Object Bank (Standford) and Classemes (Microsoft).
We developped a novel method using object detectors to create a discriminative, semantic and compact image signature.
Compared to similar methods found in the literature, our method encompasses two main areas of novelty: introducing a new spatial pooling formalism and designing a late fusion strategy for combining our representation with state-of-the art methods based on low-level descriptors, e.g. Fisher Vectors and BossaNova.
Our experiments carried out in the challenging PASCAL VOC 2007 dataset reveal outstanding performances.
When combined with low-level representations, we reach more than 67.6% in MAP, outperforming recently reported results in this dataset with a large margin.

Titre : Tâche Instance Search à TRECVid 2013
Auteurs : Boris Mansencal, Jenny Benois-Pineau

Titre : Meta-Tracking pour l’analyse automatique de scène
Auteurs : Y Benezeth1 P-M Jodoin Yi Wang
Résumé : Nous proposons ici une nouvelle méthode pour extraire les mouvements dominants (motion pattern - MP) et les points d’entrée et de sortie d’une séquence de vidéo surveillance. La méthode calcule d’abord les histogrammes du mouvement pour chaque pixel puis les convertit en fonction de distribution d’orientation (orientation distribution functions – ODF). A partir de ces ODFs, une procédure de meta-tracking de particules est lancée qui produit des meta-tracks, i.e des trajectoires de particules. Contrairement aux approches conventionnelles qui se basent sur les déplacements des objets de la scène, le meta-tracking utilise des particules pour identifier les MPs du trafic dans une vidéo. Dans une dernière étape, une nouvelle méthode est employée pour déterminer les principaux points d’entrée et de sortie de la scène et déterminer les MPs.
L’algorithme proposé est une nouvelle façon de connecter des descripteurs de mouvement bas-niveau avec des concepts haut-niveau de MPs. Cette méthode est inspirée des techniques de tractographie du cerveau qui est utilisée pour déterminer les principales connexions du cerveau. Notre méthode est rapide, simple à implémenter et fonctionne aussi bien sur des vidéos très structurées (autoroute, carrefour, etc.) que sur des vidéos plus chaotiques.

Titre : Utilisation d’une approche « sacs de mots » pour la caractérisation temporelle de vidéos.
Auteurs : S.T. Strat, A. Benoit, P. Lambert
Résumé : Dans le cas de très grandes bases de données vidéo, les contraintes de volume et de temps de traitement font que l’indexation est souvent effectuée sur quelques (voire une) images-clés prélevées dans chacun des plans composant la vidéo. Bien sûr, cette manière de procéder ne permet pas de prendre en compte les informations de nature temporelle. Parallèlement, il existe de nombreux travaux qui s’intéressent à la recherche de caractéristiques liées au mouvement, en particulier dans l’analyse de l’activité humaine, mais ces approches sont souvent très spécifiques et ne permettent pas de traiter de grandes bases au contenu très varié. L’objectif du travail proposé est de réaliser une caractérisation de l’information temporelle sous une forme générique en utilisant une approche de type « sacs de mots visuels ». Cette approche consiste à détecter les trajectoires d’un ensemble de points d’intérêt, à caractériser ces trajectoires par une batterie d’attributs et à construire des représentations de type « sacs de mots » à partir de ces attributs. L’approche est testée dans le cadre de la tâche « semantic indexing » du challenge TrecVid. Les résultats obtenus montrent que l’utilisation de « sac de mots temporels », combinée aux approches classiques travaillant sur des caractéristiques statiques, apporte une information complémentaire qui permet un gain global de performance.

Titre : Descripteurs spatio-temporels « sacs de mots » SIFT avec pré-traitement rétinien
Auteurs : S.T. Strat, A. Benoit, P. Lambert
Résumé : Toujours dans le cadre de l'indexaton sémantique de très grandes bases d'images ou vidéos, l'approche « sac de mots » utilisant des caractéristiques locales SIFT, SURF etc. donne générallement les meilleurs résultats pour la détection de concepts sémantiques dans la tâche TrecVid SIN. Cependant, malgré ces bonnes performances, ces descripteurs peuvent être perturbés par les dégradations d’image (bruit, artéfacts de compression). De plus, ils ne peuvent pas décrire l’information spatio-temporelle, ce qui les rend moins appropriés pour la reconnaissance de concepts liés au mouvement.
Nous proposons de rendre les descripteurs SIFT/SURF BoW plus robustes aux dégradations d’image/vidéo et également de les rendre sensibles au contenu spatio-temporel en utilisant un modèle de rétine humaine pour prétraiter les vidéos avant d’extraire les Sacs-de-Mots. En utilisant de différentes façons les propriétés du modèle rétinien, nous obtenons une batterie de descripteurs « sac de mots » SIFT complémentaires, qui encodent à la fois l'information spatiale (d'un meilleur rapport signal/bruit) et l'information spatio-temporelle. L’approche est testée dans le cadre de la tâche « semantic indexing » du challenge TrecVid.

Identification

Bilan TRECVID 2013 et préparation TRECVID 2014.

Inscriptions

Annonce

Programme

Résumés des contributions