Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions closes à cette réunion.
12 personnes membres du GdR ISIS, et 19 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 50 personnes.
Le fait de relier entre elles un grand nombre de données isolées et hétérogènes pour constituer une base de connaissance beaucoup plus vaste suscite actuellement un grand intérêt. Le liage et la structuration de contenus multimédias, notamment image, devraient prendre dans cette optique une place de plus en plus importante. Malheureusement, le volume, la vélocité, le complexité et l'hétérogénéité des données sont tels que les technologies actuelles de recherche par le contenu ne sont pas directement applicable pour ce type de problèmes. Les méthodes actuelles de génération de graphes de similarité visuelle restent par exemple encore trop coûteuses, pas assez dynamiques et difficilement distribuables. Les technologie de demain devraient également permettre de traiter des objets de plus en plus diverses (des évènements, des plantes, des maladies, ...) et de plus en plus complexes (composés d'une ou plusieurs images, de videos, de textes, de geo-tags, d'information sur l'auteur, etc.). Cette journée sera l'occasion d'approfondir les problèmes liés à ce nouveau type de données et de présenter des travaux originaux permettant de les relier, de les structurer et d'en extraire de la connaissance.
Les propositions d'exposé sur ce thème sont à envoyer à alexis.joly@inria.fr
Par ailleurs, une partie de la journée sera consacrée à la préparation et à la révision de méthodes pour la campagne d'évaluation internationale TRECVID 2013. Les propositions de participation à cet atelier sont à envoyer à Georges.Quenot@imag.fr
10:00 - Marie-Luce Viaud (INA/OTMedia), présentation de l'observatoire transmédia
10:30 - Philippe Gosselin (ENSEA/INRIA TEXMEX), Détection des répétitions dans les flux télévisés à grande échelle à l'aide du hachage par produit de quantification
Pause.
11:10 - Olivier Buisson (INA), Découverte d'objets visuels de petite taille dans des grands corpus d'images
11:40 - Raphael Troncy, Eurecom, Des événements aux réseaux sociaux : construire des hypervidéos par les entités nommées
Pause déjeuner.
14:00 - Amel Znaïda, CEA LIST, BOW-based Representations for Semantic Image Classification
14:30 - Hanlin Goh, LIP6, Unsupervised and supervised visual codes with Restricted Boltzmann Machines
Pause.
15:00 - Yan Mombrun, Cassidian, FP7 ICT AXES: Si seulement vous saviez ce que contiennent vos bibliothèques numériques.
15:30 - Point sur TRECVID2013
Raphaël Troncy
De nombreux sites web fournissent des informations à propos d'événements passés ou à venir, et certains d'entre eux affichent même des photos ou des vidéos capturés pendant ces événements. L'information disponible est, cependant, souvent incomplète, erronée et enfermée dans une multitude de sites web. Nous commençons d'abord par décrire EventMedia [1], une application web, récemment primée, permettant de revivre ou de découvrir des événements à partir de contenus multimédias.
Lier des contenus multimédias avec d'autres contenus est aussi l'objectif du projet européen LinkedTV. Nous montrons comment la question de l'extraction d'entités nommées dans les sous-titres de vidéos est centrale pour enrichir ces contenus. Nous présentons alors NERD [2], un framework pour extraire et désambiguïser des entités nommées, ainsi que MediaFinder [3], une application permettant de retrouver des contenus multimédias partagés sur les réseaux sociaux. Nous illustrons ainsi comment des fragments d'un programme télévisuel peuvent être enrichis par d'autres contenus multimédias.
[1] http://eventmedia.eurecom.fr/
[2] http://nerd.eurecom.fr/
[3] http://mediafinder.eurecom.fr/
Hanlin Goh
In this talk, I will focus on image representation learning for classification. The Bag-of-(Visual)-Words (BoVW) model is the most widely used approach to represent visual documents. BoVW relies on the quantization of local descriptors using visual codebooks and their aggregation into a single feature vector. Recently, unsupervised learning methods have emerged to jointly learn visual codebooks and codes. I will present our approach based on restricted Boltzmann machines (RBM) to achieve this joint optimization. To enhance feature coding, RBMs may be regularized with a sparsity constraint term. I will show experimental results of this code learning strategy embedded in the BoVW pipeline for image classification.
Yan Mombrun
Le projet européen AXES vise à fournir de nouveaux moyens d'interaction et surtout d'exploration du contenu des bibliothèques numériques.
L'un des points clés du projet consiste à identifier des instances (personnes, lieux, événements, objets) en exploitant de manière multi-modale les résultats de traitement automatique de la parole, de l'image, de la vidéo et du texte.
Ces détections facilitent la recherche de contenus à partir d'instances prédéterminées, mais également à partir de modèles appris à la volée sur demande de l'utilisateur.
Les contributions des partenaires techniques du projet (Fraunhofer IAIS, INRIA LEAR, VGG University of Oxford, EWI University Twente, ESAT KU Leuven), l'architecture (fondée la plateforme WebLab) et le prototype installé à la BBC et ayant été utilisé dans le cadre d'expérimentations pour TRECVID 2012 seront présentés.
Philippe Gosselin
La recherche de copie ou de quasi-copie dans les séquences vidéos présente un très grand intérêt pour beaucoup d'applications multimédia. Cependant, concevoir un système efficace et capable de passer à l'échelle est encore un défi pour la communauté. Dans cette présentation, nous proposons une méthode pour détecter les séquences récurrentes dans les flux télévisés à grande échelle grâce à une approche non supervisée et munie d'un peu d'a priori sur la nature des contenus. La méthode repose sur un produit de quantification k-means qui produit des clefs de hachage adaptées à la distribution des données. Cette technique de hachage combinée avec une vérification de la consistance temporelle permet la détection des répétitions significatives dans les flux télévisés.
Amel Znaïda
Appropriate document description is a prerequisite for efficient processing needed in document classification tasks. In the case of multimedia content, a key problem is the combination of different modalities that characterize a document. In the case of still pictures, high and low level modalities (text and image features) are usually modeled and combined. We present two approaches to enhance multimodal image classification accuracy that exploit these two modalities. First, we discuss a uni?ed classi?cation framework which mixes textual and visual information in a seamless manner at decision level (late fusion). Unlike most recent previous works, computer vision techniques are used as inspiration to process textual information. To do so, we consider two types of complementary tag similarities, respectively computed from a conceptual hierarchy (WordNet) and from data collected from a photo sharing platform (Flickr). A state-of-the-art approach is used to extract visual features. Second, we introduce a semantic signature for multimedia documents that relies on an early combination of textual and visual information. It is based on multimedia codewords that allow on the one hand cross-coding textual tag-words over visual-words extracted from a document; and on the other hand designing Bag-of-Multimedia-Words (BoMW) signatures. Experimental results on the Pascal VOC 2007 and MIR Flickr datasets show competitive results compared to state-of-the-art methods, ensuring a trade-off between classi?cation accuracy and computation cost for both approaches.
Date : 2013-04-11
Lieu : Telecom ParisTech. Amphi Rubis (46 rue Barrault - 75013 Paris)
Thèmes scientifiques :
B - Image et Vision
Inscriptions closes à cette réunion.
Accéder au compte-rendu de cette réunion.
(c) GdR IASIS - CNRS - 2024.