Antonin Raffin, Ashley Hill, René Traore, Timothée Lesort, Natalia Diaz-Rodriguez, David Filliat
Julien LANGLOIS, H. Mouchère, N. Normand, C. Viard-Gaudin
Zongmian Li, Jiri Sedlar, Justin Carpentier, Ivan Laptev, Nicolas Mansard, Josef Civic
Deep-Reinforcement-Learning for End-to-End Driving
Marin Toromanoff, Fabien Moutarde, Emilie Wirbel
Mines ParisTech, Valeo Driving Assistence
Nous présenterons les premiers résultats d'un travail utilisant des algorithmes de L'état de L'art en apprentissage par renforcement appliqués à la conduite de bout en bout dans un simulateur réaliste d'un environnement urbain.
Dans ce travail, nous avons d'abord implémenté et réuni ensemble 3 algorithmes de renforcement qui ont actuellement les meilleures performances sur le benchmark ATARI qui est l'un des benchmarks le plus utilisé en renforcement : Rainbow, Implicit Quantile Network et Ape-X. Ces algorithmes font partie de la famille baseé valeur qui cherchent à estimer la fonction de valeur de la politique optimale et se basent sur l'algorithme du Deep Q Network (DQN).
Finalement, nous avons appliqué cet algorithme de Deep Reinforcement Learning pour apprendre la conduite de véhicule dans 'CARLA', qui est un simulateur graphiquement réaliste de conduite en environnements urbains. Pour cela, nous avons défini une fonction de récompense qui incite l'agent à rester sur sa voie, à conduire à une vitesse conseilleé (dans nos résultats préliminaires, nous avons choisis 30km/h) ainsi qu d'éviter les collisions avec les autres véhicules, les objets et les trottoirs. L'agent reçoit en entreé l'image d'une caméra frontale en niveau de gris (84*84 pour les résultats préliminaires) ainsi qu'un ordre (Gauche, Tout droit, Droite) correspondant à la décision que doit suivre l'agent lors de la prochaine intersection. Nous avons aussi entraîné les agents sous diverses conditions de luminosité et de météo.
EgoMap: Scenarios for Deep Reinforcement Learning in 3D environments and augmenting agents with spatially structured neural memory.
Edward Beeching, Jilles Dibangoye, Olivier Simonin, Christian Wolf
Inria, INSA-Lyon, CITI, LIRIS
Reasoning, control and longtime recollection of information remain ongoing challenges in Deep Reinforcement Learning (RL). We present a range of simulated benchmark scenarios for 3D control and reasoning and identify situations in which a standard RL agent architecture performs sub-optimally. We then demonstrate how the use of network architectures that incorporate projective geometry and spatially structured memory can increase an RL agent's performance.
Vers l'apprentissage tout au long de la vie pour la conduite autonome
Zhi YAN, Yassine RUICHEK
UTBM, CIAD
L'apprentissage tout au long de la vie (y compris l'apprentissage en ligne [6,7] et à long terme [35]) constitue une nouvelle approche dont l?objectif est d'adapter les connaissances et les comportements d?un v éhicule autonome aux changements environnementaux au fil du temps, et ainsi permettre une am élioration importante de la sécurité de son fonctionnement, notamment en termes de prise de d écision. Les problèmes clés de la robotique mobile, et ainsi la conduite autonome, tels que la localisation [1,2], la cartographie, la navigation, et le suivi d'objets, peuvent être résolus de manière plus fiable lorsqu'ils sont formulés comme des problèmes de modélisation spatio-temporelle. Dans ce cadre, nous avons développé, au laboratoire CIAD ( équipe EPAN) de l'UTBM-UBFC, un framework multi-capteurs (jusqu'à 11 capteurs) pour la conduite autonome et construit ensuite un jeu de données (acquis au centre-ville de Montbéliard), sous l'environnement ROS, qui regorge de nouveaux d éfis de recherche pour le véhicule autonome (routes en pente, zones partag ées, d éviations, etc.). Caractérisé par des acquisitions à différentes périodes (après-midi et soir, semaine, saison), ce jeu de données convient particulièrement à une étude d'autonomie à long terme. De plus, dans le cadre d'une collaboration avec l'Université de Lincoln (Royaume-Uni), nous avons développé une méthode de cartographie sémantique à long terme avec des données lidar 3D (Recurrent-OctoMap [4]) permettant de cartographier un environnement dynamique pendant plusieurs semaines. Le système peut être construit et déployé avec une taille de mémoire arbitraire, et la carte sémantique est basée sur l'état, maintenable, et avec une durée de mémoire flexible. Nous sommes également intéressés par la conduite autonome en présence du mauvais temps. Dans le cadre d'une collaboration avec l'Université technique de Prague (Tchéquie), nous développons une approche d'apprentissage en ligne qui permet à un capteur d'apprendre un nouveau modèle d'objet à partir de données provenant d'un autre capteur afin de faire face à l'échec de ce dernier dans certaines conditions météorologiques.
Présentation invitée : 3D Rigid and Articulated Object Registration for Robotics and Augmented Reality
Vincent Lepetit
LABRI, Université de Bordeaux
I will present our approach to 3D registration of rigid and articulated objects from monocular color images or depth maps. We first introduce a "holistic" approach that relies on a representation of a 3D pose suitable to Deep Networks and on a feedback loop. We also show how to tackle the domain gap between real images and synthetic images, in order to use synthetic images to train our models. Finally, I will present our recent extension to deal with large partial occlusions.
Utilisation de la curiosité pour l'exploration par but de représentations d'environnement complexes
Adrien Laversanne-Finot, Alexandre Péré et Pierre-Yves Oudeyer
Inria Flowers
Les processus intrinsèquement motivés d'apprentissage par buts permettent à des agents de se générer de manière autonomes des buts qu'ils cherchent ensuite à réaliser. Cette technique permet à des agents d'explorer de manière efficace des environnements complexes, dont l'espace d'action est continu et de haute dimension. Cette technique a montré son efficacité sur des robots, leur permettant d'apprendre des répertoires d'actions permettant de générer une grande diversité d'effets. Jusqu'à présent, ces algorithmes reposaient sur des espaces de buts créés par une personne extérieure. Dans cette présentation je montrerai comment il est possible d'utiliser des algorithmes de représentation utilisant des réseaux de neurones afin d'apprendre ces espaces de buts. Je montrerai également comment il est possible, lorsque la représentation servant d'espace de but est désintriquée, d'exploiter cette propriété à l'aide d'algorithmes d'exploration modulaires afin d'explorer plus efficacement l'environnement, en particulier lorsque l'environnement contient des distracteurs. Cette exploration permet à l'agent, par le suivi de la mesure de compétence de découvrir quelle sont les entités qui peuvent etre controllées dans l'environnement. Enfin, je montrerai des résultats récents obtenus sur une expérience robotique utilisant cette technique.
Auto-évaluation des performances et adaptation en ligne de l'apprentissage en robotique,
Remi Dromnelle, Erwan Renaudo, Benoit Girard, Raja Chatila, Mehdi Khamassi
ISIR, Sorbonne
L'objectif principal de mon projet de thèse est de proposer une nouvelle méthode d'auto-évaluation des performances et d'adaptation en ligne de l'apprentissage robotique en contexte social. Cette méthode doit être suffisamment générale et tâche-indépendante pour permettre aux robots d'adapter efficacement leur comportement en fonction des variations de leur propre performance. Cela devrait leur permettre de résoudre différentes tâches dynamiques de manière optimale, sans ajustements de l'algorithme par le programmeur/concepteur. Les algorithmes qui exploite cette méthode forment un algorithme de méta-apprentissage appliqué à la robotique intégrant la notion d'habitude dans ses capacités de décision. L'inspiration vient des neurosciences et de la modélisation du fonctionnement du cerveau, et plus particuliérement de la mise en évidence de différentes catégories de stratégies chez l'animal (stratégies model-based contre stratéies model-free). Un tel algorithme de méta-apprentissage doit être capable de changer de stratégies comportementales de manière optimale afin de tirer bénéfices des avantages de chacune d'entre elle. Des modèles computationnels de ces processus de contrôle cognitif ont par le passeé déjà été appliqués à une variété de situations expérimentales, mais rarement en contexte social. En effet, lorsqu'un robot interagit avec un homme, il doit en plus des signaux environnementaux standards prendre en compte ceux associés à l'interaction humaine. Ces signaux sont souvent très imprévisibles et difficiles à contrôler. Ce projet de recherche propose donc à la fois d'améliorer l'autonomie décisionnelle des robots, et notamment lorsque ceux-ci ont besoin d'interagir avec des humains, mais aussi, en s'inspirant des neurosciences, de mieux comprendre les mécanismes comportementaux qui sous-tendent à ces interactions. Dans le cadre cette présentation, je me concentrerais sur l'application du modèle que nous avons développé à une tâche de navigation, plus simple, et non pas à une tâche d'interaction homme-robot.
ADVENT: Adversarial Entropy Minimization for Domain Adaptation in Semantic Segmentation
Tuan-Hung Vu, Himalaya Jain, Maxime Bucher, Mathieu Cord, Patrick Pérez
Valéo.AI, Sorbonne Université
Semantic segmentation is a key problem for many computer vision tasks. While approaches based on convolutional neural networks constantly break new records on different benchmarks, generalizing well to diverse testing environments remains a major challenge. In numerous real
world applications, there is indeed a large gap between data distributions in train and test domains, which results in severe performance loss at run-time. In this work, we address the task of unsupervised domain adaptation in semantic segmentation with losses based on the entropy of the pixel-wise predictions. To this end, we propose two novel, complementary methods using (i) entropy loss and (ii) adversarial loss respectively. We demonstrate state-of-the-art performance in semantic segmentation on two challenging synthetic-2-real set-ups and show that the approach can also be used for detection.
DECOUPLING FEATURE EXTRACTION FROM POLICY LEARNING: ASSESSING BENEFITS OF STATE REPRESENTA- TION LEARNING IN GOAL BASED ROBOTICS
Antonin Raffin, Ashley Hill, Rene Traore, Timotheé Lesort, Natalia Diaz-Rodriguez, David Filliat
U2IS, Inria Flowers, ENSTA Paristech
A common strategy to learn a controller in robotics is to design a reward function that defines the task and search for a policy that maximizes the collected rewards with a Reinforcement Learning (RL) approach.
Formally, we model a controlled system (environment and robot) by a state st, i.e., the relevant variables for a controller, often of low dimension (e.g., positions of a robot and a target). At a given state st, the agent will receive an observation ot from the environment, often raw sensor data (e.g., images from the robot camera) and a reward rt. RL must then learn a policy that takes observations as input and returns the action at that maximizes the expected return.
When the state is not directly accessible, RL should recover it from the observation to learn a good control policy. State representation learning (SRL) (Lesort et al., 2018) aims at learning to extract those states separately from learning the RL policy.
In this work, we present the advantages of decoupling feature extraction from policy learning in RL, on a set of goal-based robotics tasks, i.e. the controlled agent is a robot, the reward is sparse and only depends on the previous state and taken action, not on a succession of states (therefore excluding tasks like walking or running). This decomposition reduces the search space, accelerates training, does not degrade final performances and gives more easily interpretable representations with respect to the true state of the system. We show also that random features provide a good baseline versus end-to-end learning.
We introduce a new way of effectively combining approaches by splitting the state representation (Raffin et al., 2019). This method uses the strengths of different SRL models (Raffin et al., 2018) and reduces in- terference between opposed or conflicting objectives when learning a feature extractor. Finally, we showed the influence of hyper-parameters on SRL Split model, the relative robustness of this model against pertur- bations, and how SRL models help transfer to a real robot. Future work should confirm these results by further experimenting with real robots in more complex tasks.
Deep-Learning pour la Navigation Inertielle
Martin Brossard, Axel Barrau, Silvère Bonnabel
Mines Paristech, Safran
Les centrales inertielles (IMU), composées d?accééromètres et de gyroscopes, ont vu leur cout chuter depuis vingt ans, et sont un élément essentiel de la localisation des robots aériens et sous-marins. Pour les véhicules autonomes, elles joueront un rôle de su?reté essentiel en cas de brouillage GPS, manque d?information visuelle ou radar, ambigu ??té visuelle, ou tout simplement panne des capteurs extéroceptifs. Il est commun pour les véhicules terrestres équipés de centrales inertielles de combiner les informations inertielles avec de l?information additionnelle de type roulement sans glissement (modèle véhicule), détection d?arre?t, vitesses latérales et verticales nulles dans le repère du robot. En utilisant des réseaux récurrents profonds entraînés sur données réelles avec vérité terrain, nous avons obtenu un détecteur à me?me de détecter en temps réel à partir des signaux de la centrale inertielle quelle information additionnelle est valable. Cette information est donnée à un filtre de Kalman invariant. Le résultat est étonnant, avec une précision finale de 20 m sur une séquence de 21 km pour un véhicule roulant 73 minutes et équipé d?une centrale inertielle de précision modérée (la dérive du gyromètre est de 10deg/h), sur un jeux de données publiquement disponible, sans avoir entraîné le détecteur sur cette séquence. La méthode, qui n?utilise que la centrale inertielle, est plus précise que: 1) l?intégration pure des signaux inertiels, qui diverge au premier virage; 2) l?odométrie différentielle basée sur des encodeurs sur les roues; et 3) l?odométrie (pour la vitesse linéaire) combinée avec un gyromètre haute précision (0.05deg/h) pour la vitesse angulaire.
Training robots to detect grasps using simulated
Amaury Depierre, Liming Chen
Ecole Centrale de Lyon, LIRIS
Grasping skill is a major ability that a wide number of real-life applications require for robotisation. State-of-the-art robotic grasping methods perform prediction of object grasp locations based on deep neural networks. However, such networks require huge amount of labeled data for training making this approach often impracticable in robotics. We developed a method to generate a large scale synthetic dataset with annotated ground truth: the Jacquard grasping dataset. Jacquard is built on a subset of ShapeNet, a large CAD models dataset, and contains both RGB-D images and annotations of successful grasping positions based on grasp attempts performed in a simulated environment.
We carried out experiments using an off-the-shelf CNN, with three different evaluation metrics, including real grasping robot trials. The results show that Jacquard enables much better generalization skills than a human labeled dataset thanks to its diversity of objects and grasping positions.
End-to-End Semantic Grid Estimation Deep Neural Network with Occupancy Grids
Ozgur Erkent, Christian Wolf, Christian Laugier
Inria Chroma, INSA-Lyon, CITI, LIRIS
We propose semantic grid, a spatial 2D map of the environment around an autonomous vehicle consisting of cells which represent the semantic information of the corresponding region such as {car, road, vegetation, bikes, etc.}. It consists of an integration of an occupancy grid, which computes the grid states with a Bayesian filter approach, and semantic segmentation information from monocular RGB images, which is obtained with a deep neural network. The network fuses the information and can be trained in an end-to-end manner. The output of the neural network is refined with a conditional random field. The proposed method is tested in various datasets (KITTI dataset, Inria-Chroma dataset and SYNTHIA) and different deep neural network architectures are compared.
Learning, adapting and exploiting action repertoires for object manipulation: DREAM project approach
Alexandre Coninx
ISIR
In an open-ended learning process, an agent or robot must solve an unbounded sequence of tasks that are not known in advance. In order to do that, it must progressively build the sensory, motor and representational abilities allowing it to control its environment. Creating a developmental system allowing a robot to autonomously and incrementally acquire such abilities with minimal prior knowledge, was a core objective of the DREAM project (2016-2018). The developed architecture relies on a combination of bootstrap processes, which allow to initialize sensorymotor abilitiesm, and representational redescription processes, which allows to reinterpret and extend existing abilities to handle new tasks. The approach also makes intensive use of simulation to explore the outcome of robot actions.
In this context, object manipulation present a specific challenge to open-ended learning. Launching, grasping, pushing or any other object interaction can be simulated but the corresponding models are not reversible and the desired robot behavior thus cannot be directly deduced. These behaviors are hard to learn without a demonstration as the search space is large and the reward sparse. We propose a method to autonomously generate a diverse repertoire of simple object interaction behaviors in simulation. Our goal is to bootstrap a robot learning and development process with limited informations about what the robot has to achieve and how. This repertoire can be exploited to solve different tasks in reality thanks to a proposed adaptation method or could be used as a training set for data-hungry algorithms.
The proposed approach relies on the definition of a goal space and generates a repertoire of trajectories to reach attainable goals, thus allowing the robot to control this goal space. The repertoire is built with an off-the-shelf simulation thanks to a quality diversity algorithm. The result is a set of solutions tested in simulation only. It may result in two different problems: (1) as the repertoire is discrete and finite, it may not contain the trajectory to deal with a given situation or (2) some trajectories may lead to a behavior in reality that differs from simulation because of a reality gap. We propose an approach to deal with both issues by using a local linearization between the motion parameters and the observed effects. Furthermore, we present an approach to update the existing solution repertoire with the tests done on the real robot. The approach has been validated on two different experiments on the Baxter robot: a ball launching and a joystick manipulation tasks. We also show how the acquired motor repertoire can be applied to a different task, i.e. controlling a small mobile robot, through a redescription process.
Learning error models for graph SLAM
Christophe Reymann, Simon Lacroix
LAAS/CNRS, Toulouse
We are aiming at developing an active mapping scheme in the context of large crop monitor- ing missions, or more generally for surface coverage missions with UAVs. Planning observation trajectories that balance map quality with mission time requires both the ability to compute a world model online and to estimate an associated error model from which the information content of future trajectories can be assessed.
The solution of choice for mapping crops is to feed a bundle adjustment (BA) technique with images acquired by an on-board multi-spectral camera: this generates very high precision maps, but requires heavy post-processing. Progresses in visual SLAM, and in particular in monocular graph SLAM approaches [Younes et al., 2017, Mur-Artal et al., 2015], let seriously consider the possibility to achieve on-line mapping with a precision comparable to off-line BA techniques. Relying on such a mapping technique, the problem at hand becomes an active SLAM problem, for which both an estimation and predictive error models are keys. Yet, the definition of such models remains a difficult problem, especially for graph SLAM approaches, where the extraction of a precise information matrix from the result of the optimization process is not straightforward.
We introduce an approach to learn a full SLAM error model. Building on the seminal work of Kasra Khossousi [Khosoussi, 2017], exploiting the graphical nature of SLAM and spectral decom- position, we propose an architecture to learn relative error metrics between any pair keyframes ? hence the adjective ?full? of the error model. The input of the learning architecture is not directly the data itself, as is usual with deep learning techniques, but instead signatures of the structure of the covisibility graph maintained by the SLAM algorithm, as well as features computed from statistics on each edge of the current graph. This error model also yields a prediction ability: new observations features are inferred by a regression technique, from which the new covariance matrices can be predicted.
The talk will depict the context of the work, its approach and implementation, as well as an analysis of first results (figures 1 to 3).
Industrial Part Pose Estimation from Virtual Images with Deep Neural Networks
Julien LANGLOIS, H. Mouchèreb, N. Normand, C. Viard-Gaudin
LS2N, Université de Nantes, Multitude-Technologies @ Wedo
Automation of the bin-picking operation still remains a challenging task when the industrial parts are poorly textured and have complex shapes. While several methods can rely on simple pattern detection for a pose es- timation problem, the performances decrease when the industrial environment is not light controlled or known a priori. Moreover, any black and glossy plastic material can be difficult to handle because of the image low contrast, and sometimes, the light saliency on the part surface.
In this work, a neural-based method is proposed for estimating the translation and orientation of industrial parts in a scene. First, a classical 2D image of a bin is used to get the binary mask of each visible part through a convolutional recurrent network (convlstm). The object local depth map is then inferred with a encoder- decoder network using skip connections. Next, two other convolutional networks compute the part orientation (expressed as a quaternion q) and its mean translation on the z-axis. To both refine the previously obtained object orientation and get the x-y translations, an icp algorithm is employed. The matching is done using the object point cloud (obtained from the depth map retro-projection) and the cad model placed at the centroid of the point cloud and orientated according to q.
One of the innovative points of this work is the use of only synthetic data for the network trainings.1 The images are generated on the fly during the network learning phase from cad models placed in a virtual scene. The bin clutter generation is done with a collision engine (with a entropy-based complexity control) while the views are rendered from opengl (Phong?s shading technique). This way overcomes the difficulties to obtain pose ground truth images from real images. Furthermore, using the cad model with several lighting conditions and material reflectivities, allows to anticipate challenging industrial situations. The other innovative point comes from the use of a specific loss function (within the orientation network) obtained from an SO(3) metric and fitted to the quaternion space.2
This technique shows enthusiastic results on both common pose estimation dataset such as linemod3 and real industrial images4 (with truth obtained from a simple homography). The next part of the work aims to improve the material defaults absorption (with gan networks) and quantify the robotic arm grasping feasibility.
Estimating 3D Motion and Forces of Person-Object Interactions from Monocular Video
Zongmian Li, Jiri Sedlar, Justin Carpentier, Ivan Laptev, Nicolas Mansard, Josef Civic
ENS, Inria Willow, CTU Prague, CNRS
In this work, we introduce a new method to automatically reconstruct the 3D motion of a person interacting with an object from a single RGB video. Our method estimates the 3D poses of the person and the object, contact positions and forces, and torques actuated by the human limbs. The main contributions of this work are three-fold. First, we propose an approach to jointly estimate the motion and the actuation forces of the person on the manipulated object by modeling contacts and the dynamics of their interactions. This is cast as a large-scale trajectory optimization problem. Second, we suggest a method to automatically recognize from the input video the position and timing of contacts between the person and the object or the ground, thereby significantly simplifying the complexity of the optimization. We validate our approach on a recent Motion Capture dataset with ground truth contact forces and demonstrate on a new dataset of Internet videos showing people manipulating a variety of tools in unconstrained indoor/outdoor environments. We show that the proposed approach improves current state-of-the-art human and object pose estimators on this challenging data.