Nous vous rappelons que, afin de garantir l'accès de tous les inscrits aux salles de réunion, l'inscription aux réunions est gratuite mais obligatoire.
Inscriptions closes à cette réunion.
25 personnes membres du GdR ISIS, et 31 personnes non membres du GdR, sont inscrits à cette réunion.
Capacité de la salle : 204 personnes.
En raison des grèves et perturbations SNCF le 22 mars, la réunion a été repoussée au 6 avril 2018 (proposition de présentation à soumettre aux organisateurs jusqu'au 16 mars)
La compréhension des images et des vidéos consiste à mettre en rapport un contenu pixellique et des concepts pouvant être interprétés par des utilisateurs humains à un niveau sémantique. Du fait des améliorations significatives des performances dans le domaine, les problèmes abordés en vision par ordinateur concernent des concepts (sémantiques) de complexité croissante. Cette complexité se traduit notamment par une description des concepts de plus en plus précise, faisant intervenir non plus seulement des annotations (mot unique ou groupe de mots fixe) mais des phrases entières. L'analyse, et la compréhension par un ordinateur, de telles phrases est justement l'objet du « traitement automatique du langage naturel (TAL) ». Au delà du rapprochement évoqué ici avec la vision par ordinateur, cette discipline est également concernée par les progrès dus aux approches d'apprentissage profond, bien que dans une mesure moindre que pour la vision. Les mêmes techniques d'apprentissage tendent à être utilisée dans les deux domaines, rendant l'intégration des approches plus homogènes, et permettant ainsi d'ouvrir de nouveaux champs de recherche profitables aux deux domaines.
Dans le cadre des thèmes B et T, l'objectif de cette journée du GDR ISIS est de présenter une vue d'ensemble des développements les plus récents croisant la vision par ordinateur et le traitement automatique des langues. Plus précisément, les thématiques visées sont :
La journée aura lieu le 6 avril 2018, dans l'amphi Jean Prouvé au Cnam (292 rue Saint-Martin 75003 Paris)
Les personnes souhaitant présenter leurs travaux sont invitées à faire part de leur intention aux organisateurs avant le 16 mars, en envoyant un résumé de la présentation par mail.
Programme détaillé:
Alexis Nasr: désambiguisation des rattachements prépositionnels à l?aide d?informations visuelles
Alexis Nasr
L'exposé porte sur la désambiguïsation des rattachements prépositionnels à l'aide d'informations visuelles. La résolution de rattachements prépositionnels est une tâche syntaxique qui repose sur des connaissances sémantiques. Ces dernières peuvent être extraites d'une image associée au texte traité. Nous décrirons dans cet exposé un système complet entraîné sur une version étendue des annotations du corpus Flickr30k Entities.
Le système est composé de trois étapes. Etant donné une phrase et une image associé, l'analyse syntaxique de la phrase est réalisé. Puis un classifieur prédit, pour tout rattachement prépositionnel effectué si ce rattachement est erroné ou pas. Ce classifieur prend en compte des indices visuels de l'image correspondant à la phrase pour prendre sa décision.
Si un rattachement est remis en cause par le classifieur, d'autres rattachements sont proposés et évalués à l'aide du même classifieur. Le rattachement obtenant le meilleur score est alors sélectionné.
Youssef Tamaazousti: Learning More Universal Representations for Transfer-Learning
Youssef Tamaazousti, Hervé Le Borgne and Céline Hudelot
We propose a method that rely on structured semantic information to improve the visual recognition with Convolutional Networks (CNNs).
Christophe Nicolle: WiseNet: interprétation de flux vidéo multi-sources par raisonnement causal
Roberto Marroquin, Julien Dubois, Christophe Nicolle
Ces travaux de recherche présente un approche d'expression sémantique d'un signal vidéo permettant la déduction de nouvelles connaissances par agrégation d'informations provenant de sources hétérogènes multiples.Notre ambition est d'extraire des connaissances en couplant les informations issues des algorithmes habituels de traitement d'images avec des connaissances contextuels et des savoir-faire liés à l'usage d'un bâtiment. Cette interopérabilité est réalisée par l'intermédiaire d'une agrégation d'ontologies. Notre ontologie utilise les axiomes définis dans le langage OWL-2. Elle fournit un vocabulaire pour intégrer, re-organiser et analyser sémantiquement des sources de données hétérogènes. Toutes les sources de données hétérogènes sont intégrées dans l'ontologie du système WiseNET en utilisant des techniques issues du linked data. La connaissance réunie peut aussi permettre de résoudre des limitations intrinsèques à la vision par ordinateur, telles que des détections manquées, erronées ou des occultations. Ceci est réalisé par la construction de règles métiers sous la forme de règles SWRL. Ce système permet la construction des nouveaux services de télésurveillance respectant la vie privée des personnes (pas de diffusion des vidéos sur le réseau).
Danny Francis : réseaux de capsules et projection de textes descriptifs dans un espace de vecteurs de caractéristiques d'images
Danny Francis, Bernard Merialdo et Benoit Huet
Fin 2017, un fort engouement a accompagné la présentation des premiers réseaux de capsules lors de la prestigieuse conférence NIPS. Une capsule est un petit réseau de neurones dont le but est de réaliser une opération complexe et spécialisée sur son entrée. Comme un simple neurone, une capsule retourne un scalaire caractérisant son activation, mais elle retourne en plus un vecteur de faible dimension caractérisant son entrée - par exemple pour une capsule devant reconnaître une certaine forme géométrique, l'activation serait élevée si cette forme géométrique a été reconnue ou faible dans le cas contraire, et le vecteur pourrait caractériser l'orientation, la taille ou encore la position de cette forme géométrique. Ces réseaux de capsules ont été présentés comme ayant vocation à pallier le problème de la perte de données spatiales lors de l'utilisation de réseaux convolutifs pour la vision par ordinateur.
Nous pensons que le principe de ces réseaux de capsules peut s'étendre à d'autres types d'applications, par exemple pour le traitement du langage naturel. En effet, bien que les réseaux de neurones récurrents de type LSTM ou GRU, qui permettent de reconnaître des dépendances entre des mots éloignés d'une même phrase, ont montré des résultats de grande qualité en traitement du langage naturel, nous pensons que l'utilisation de capsules pourrait présenter de sensibles améliorations. Nos travaux actuels s'intéressent en particulier à l'intérêt que les réseaux de capsules pourraient présenter en ce qui concerne la projection de textes descriptifs dans un espace de vecteurs de caractéristiques d'images.
Antoine Miech: Learning a Text-Video Embedding from Incomplete and Heterogeneous Data
Antoine Miech, Josef Sivic et Ivan Laptev.
Joint understanding of video and language is an active research area with many applications. Prior work in this domain typically relies on learning text-video embeddings. One difficulty with this approach, however, is the lack of large-scale annotated video-caption datasets for training. To address this issue, we aim at learning text-video embeddings from heterogeneous data sources. To this end, we propose a Mixture-of-Embedding-Experts (MEE) model with ability to handle missing input modalities during training. As a result, our framework can learn improved text-video embeddings simultaneously from image and video datasets. We also show the generalization of MEE to other input modalities such as face descriptors. We evaluate our method on the task of video retrieval and report results for the MPII Movie Description and MSR-VTT datasets. The proposed MEE model demonstrates significant improvements and outperforms previously reported methods on both text-to-video and video-to-text retrieval tasks.
Micael Carvalho: Metric Learning for Crossmodal Alignment
Micael Carvalho
Modeling different data types into the same representation space is one of the leading approaches for solving problems involving visual and textual data. Recently, large-scale datasets allowed these problems to be tackled from different angles, including the use of partial annotations. In the light of these advances, we introduce modern metric learning strategies for feature-space alignment, with particular interest in multi-task and cross-modality, as well as applications to computational cuisine.
Maxime Bucher: approches récentes de « zero-shot learning »
Maxime Bucher, Stéphane Herbin and Frédéric Jurie
Les algorithmes d'interprétation de données multimédia (image, vidéo, texte, son...) sont en progrès constant. Leurs succès récents sont fondés sur une exploitation de techniques efficaces d'apprentissage statistique et surtout sur la disponibilité de bases de données de référence massives (plusieurs centaines de milliers d'images). Les algorithmes dits d'apprentissage profond ("Deep learning") en particulier ont montré récemment un gain notable.
Dans les situations réelles, disposer de données massives et statistiquement pertinentes - elles sont souvent de contextes disparates, de qualité image variées, et de conditions d'observation hétérogènes - est une condition rarement satisfaite, et limite l'utilisation pratique des techniques d'apprentissage massif telles que décrites dans la littérature récente. Dans un grand nombre d'applications pratiques (médical, militaire...), les données d'apprentissage sont rares, coûteuses ou simplement non accessibles.
Un des moyens de contourner cette difficulté de manque de données partiel est d'exploiter des représentations sémantiques intermédiaires susceptibles de définir la tâche d'interprétation à satisfaire: cette description peut consister en une représentation fine d'attributs caractéristiques d'un domaine applicatif, en une définition textuelle (par ex. une page Wikipédia) ou en une représentation vectorielle d'un mot ("word to vec"). Les problèmes identifiés par l'expression "zero-shot learning décrivent des démarches algorithmiques permettant d'introduire dans un système d'interprétation de données de nouvelles classes à reconnaître définies par de telles représentations sémantiques.
Dans cette présentation on se propose de donner un panorama des approches récentes de "zero-shot learning", de leurs performances et des questions posées par ce type d'approche.
Références:
Abraham Montoya Obeso: "Reconnaissance des styles architecturaux des bâtiments mexicains: intergration de la compréhension visuelle dans un CNN"
Abraham Montoya Obeso, Jenny Benois-Pineau, Mireya Garcia -Vazquez, Alejandro Ramirez
Les réseaux à convolution profonds sont devenus outils prépondérants de classification supervisée dans des divers problèmes de reconnaissance des scènes visuelles; L'architecture classique d'un CNN comporte des couches de convolution, de non-linéarité et de pooling. Dans ces dernières la méthode la plus populaire de passage des neurones de la couche précédente vers les champs réceptifs de neurones de la couche suivante consiste à retenir la valeur maximale sur une fenêtre glissante. Dans notre travail nous proposons une nouvelle méthodologie de sélection de neurones basées sur la perception de leur importance visuelle par l'humain. En effet, dans les travaux de Zissermann, il a été montré que pour la classification par rapport à la taxonomie des classes définie, la contribution des pixels d'une image n'est pas uniforme: certains pixels se propagent à travers le réseau avec des poids synaptiques plus importants. Nous proposons une démarche inverse: à chaque couche de pooling , la sélection de neurones est différentiée selon leur importance pour le système visuel humain définie par des modèles de perception classiques. Ainsi des couches supplémentaires - couches d'importance visuelle- sont introduites dans le réseau. Nous appliquons cette méthodologie au problème de reconnaissance des styles architecturaux des bâtiments mexicaines. Les résultats montrent qu'une telle stratégie permet de diminuer le temps d'entrainement d'un facteur de deux sans détériorer la performance.
Patrick Gallinari: Learning multimodal word representations: visual grounding and VQA (Visual Question Answering)
Date : 2018-04-06
Lieu : amphi Abbé Prouvé au Cnam (292 rue Saint-Martin 75003 Paris)
Thèmes scientifiques :
B - Image et Vision
T - Apprentissage pour l'analyse du signal et des images
Inscriptions closes à cette réunion.
Accéder au compte-rendu de cette réunion.
(c) GdR IASIS - CNRS - 2024.