Les chercheurs ont persuadé une famille de modèles d’IA génératifs de travailler ensemble pour résoudre des problèmes de manipulation de robots en plusieurs étapes.
Quiconque a déjà essayé de ranger une quantité de bagages de taille familiale dans le coffre de la taille d’une berline sait qu’il s’agit d’un problème difficile. Les robots ont également du mal à effectuer des tâches d’emballage denses.
Pour le robot, résoudre le problème de l’emballage implique de satisfaire de nombreuses contraintes, comme empiler les bagages pour que les valises ne tombent pas hors du coffre, que les objets lourds ne soient pas placés sur les plus légers et les collisions entre le bras robotique et le pare-chocs de la voiture. sont évités.
Certaines méthodes traditionnelles abordent ce problème de manière séquentielle, en devinant une solution partielle qui répond à une contrainte à la fois, puis en vérifiant si d’autres contraintes ont été violées. Avec une longue séquence d’actions à entreprendre et une pile de bagages à emballer, ce processus peut prendre beaucoup de temps.
Approche innovante des chercheurs du MIT
MIT les chercheurs ont utilisé une forme d’IA générative, appelée modèle de diffusion, pour résoudre ce problème plus efficacement. Leur méthode utilise une collection de modèles d’apprentissage automatique, chacun étant formé pour représenter un type spécifique de contrainte. Ces modèles sont combinés pour générer des solutions globales au problème du packaging, prenant en compte toutes les contraintes à la fois.
Leur méthode était capable de générer des solutions efficaces plus rapidement que les autres techniques, et elle a produit un plus grand nombre de solutions réussies dans le même laps de temps. Il est important de noter que leur technique était également capable de résoudre des problèmes liés à de nouvelles combinaisons de contraintes et à un plus grand nombre d’objets, que les modèles n’avaient pas vus lors de l’entraînement.
En raison de cette généralisabilité, leur technique peut être utilisée pour enseigner aux robots comment comprendre et répondre aux contraintes globales des problèmes d’emballage, telles que l’importance d’éviter les collisions ou le désir qu’un objet soit à côté d’un autre objet. Les robots formés de cette manière pourraient être appliqués à un large éventail de tâches complexes dans divers environnements, depuis l’exécution de commandes dans un entrepôt jusqu’à l’organisation d’une étagère chez quelqu’un.
« Ma vision est de pousser les robots à effectuer des tâches plus complexes qui comportent de nombreuses contraintes géométriques et des décisions plus continues à prendre – c’est le genre de problèmes auxquels les robots de service sont confrontés dans nos environnements humains non structurés et diversifiés. Grâce à l’outil puissant des modèles de diffusion compositionnelle, nous pouvons désormais résoudre ces problèmes plus complexes et obtenir d’excellents résultats de généralisation », déclare Zhutian Yang, étudiant diplômé en génie électrique et informatique et auteur principal d’un article sur cette nouvelle technique d’apprentissage automatique.
Ses co-auteurs incluent Jiayuan Mao et Yilun Du, étudiants diplômés du MIT ; Jiajun Wu, professeur adjoint d’informatique à l’Université de Stanford ; Joshua B. Tenenbaum, professeur au Département des sciences du cerveau et des sciences cognitives du MIT et membre du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) ; Tomás Lozano-Pérez, professeur d’informatique et d’ingénierie au MIT et membre du CSAIL ; et l’auteur principal Leslie Kaelbling, professeur Panasonic d’informatique et d’ingénierie au MIT et membre du CSAIL. La recherche sera présentée à la Conférence sur l’apprentissage des robots.
La complexité des contraintes
Les problèmes de satisfaction continue des contraintes sont particulièrement difficiles pour les robots. Ces problèmes apparaissent dans les tâches de manipulation de robots en plusieurs étapes, comme emballer des objets dans une boîte ou dresser une table. Elles impliquent souvent de respecter un certain nombre de contraintes, notamment géométriques, comme éviter les collisions entre le bras du robot et l’environnement ; les contraintes physiques, comme empiler des objets pour qu’ils soient stables ; et des contraintes qualitatives, comme placer une cuillère à droite d’un couteau.
Il peut y avoir de nombreuses contraintes, et elles varient selon les problèmes et les environnements en fonction de la géométrie des objets et des exigences spécifiées par l’homme.
Pour résoudre efficacement ces problèmes, les chercheurs du MIT ont développé une technique d’apprentissage automatique appelée Diffusion-CCSP. Les modèles de diffusion apprennent à générer de nouveaux échantillons de données qui ressemblent à des échantillons d’un ensemble de données d’entraînement en affinant de manière itérative leur sortie.
Pour ce faire, les modèles de diffusion apprennent une procédure permettant d’apporter de petites améliorations à une solution potentielle. Ensuite, pour résoudre un problème, ils partent d’une solution aléatoire et très mauvaise, puis l’améliorent progressivement.
Par exemple, imaginez placer au hasard des assiettes et des ustensiles sur une table simulée, leur permettant de se chevaucher physiquement. Les contraintes sans collision entre les objets auront pour conséquence de les pousser les uns les autres, tandis que les contraintes qualitatives entraîneront l’assiette vers le centre, aligneront la fourchette à salade et la fourchette à dîner, etc.
Les modèles de diffusion sont bien adaptés à ce type de problème de satisfaction de contraintes continues, car les influences de plusieurs modèles sur la pose d’un objet peuvent être composées pour encourager la satisfaction de toutes les contraintes, explique Yang. En partant à chaque fois d’une estimation initiale aléatoire, les modèles peuvent obtenir un ensemble diversifié de bonnes solutions.
Travailler ensemble
Pour Diffusion-CCSP, les chercheurs ont voulu capturer l’interconnectivité des contraintes. Dans le packaging par exemple, une contrainte peut exiger qu’un certain objet soit à côté d’un autre objet, tandis qu’une seconde contrainte peut spécifier où l’un de ces objets doit être situé.
Diffusion-CCSP apprend une famille de modèles de diffusion, un pour chaque type de contrainte. Les modèles sont formés ensemble, ils partagent donc certaines connaissances, comme la géométrie des objets à emballer.
Les modèles travaillent ensuite ensemble pour trouver des solutions, en l’occurrence des emplacements pour les objets à placer, qui satisfont conjointement aux contraintes.
« Nous n’arrivons pas toujours à une solution du premier coup. Mais lorsque vous continuez à affiner la solution et qu’une violation se produit, cela devrait vous conduire à une meilleure solution. Vous obtenez des conseils en cas de problème », dit-elle.
Entraîner des modèles individuels pour chaque type de contrainte, puis les combiner pour effectuer des prédictions réduit considérablement la quantité de données d’entraînement requises, par rapport à d’autres approches.
Cependant, la formation de ces modèles nécessite encore une grande quantité de données démontrant les problèmes résolus. Les humains devraient résoudre chaque problème avec des méthodes lentes traditionnelles, ce qui rendrait le coût de génération de telles données prohibitif, explique Yang.
Au lieu de cela, les chercheurs ont inversé le processus en proposant d’abord des solutions. Ils ont utilisé des algorithmes rapides pour générer des boîtes segmentées et insérer un ensemble diversifié d’objets 3D dans chaque segment, garantissant ainsi un emballage serré, des poses stables et des solutions sans collision.
« Grâce à ce processus, la génération de données est quasi instantanée en simulation. Nous pouvons créer des dizaines de milliers d’environnements dans lesquels nous savons que les problèmes peuvent être résolus », dit-elle.
Formés à l’aide de ces données, les modèles de diffusion travaillent ensemble pour déterminer les emplacements où les objets doivent être placés par la pince robotisée pour accomplir la tâche d’emballage tout en respectant toutes les contraintes.
Ils ont mené des études de faisabilité, puis ont fait la démonstration de Diffusion-CCSP avec un vrai robot résolvant un certain nombre de problèmes difficiles, notamment insérer des triangles 2D dans une boîte, emballer des formes 2D avec des contraintes de relations spatiales, empiler des objets 3D avec des contraintes de stabilité et emballer des objets 3D avec des contraintes de stabilité. un bras robotique.
Leur méthode a surpassé les autres techniques dans de nombreuses expériences, générant un plus grand nombre de solutions efficaces, à la fois stables et sans collision.
À l’avenir, Yang et ses collaborateurs souhaitent tester Diffusion-CCSP dans des situations plus complexes, par exemple avec des robots capables de se déplacer dans une pièce. Ils veulent également permettre à Diffusion-CCSP d’aborder des problèmes dans différents domaines sans avoir besoin de se recycler sur de nouvelles données.
« Diffusion-CCSP est une solution d’apprentissage automatique qui s’appuie sur de puissants modèles génératifs existants », déclare Danfei Xu, professeur adjoint à la School of Interactive Computing du Georgia Institute of Technology et chercheur scientifique chez NVIDIA AI, qui n’a pas participé. avec ce travail. « Il peut générer rapidement des solutions qui satisfont simultanément plusieurs contraintes en composant des modèles de contraintes individuelles connus. Bien qu’elle n’en soit encore qu’aux premières phases de développement, les progrès en cours dans cette approche promettent de permettre des systèmes autonomes plus efficaces, plus sûrs et plus fiables dans diverses applications.
Cette recherche a été financée, en partie, par la National Science Foundation, l’Air Force Office of Scientific Research, l’Office of Naval Research, le MIT-IBM Watson AI Lab, le MIT Quest for Intelligence, le Center for Brains, Minds et Machines, Boston Dynamics Artificial Intelligence Institute, Stanford Institute for Human-Centered Artificial Intelligence, Analog Devices, JPMorgan Chase and Co. et Salesforce.