in

Le modèle d’IA du MIT accélère la vision par ordinateur haute résolution pour les véhicules autonomes

Le modèle d’IA du MIT accélère la vision par ordinateur haute résolution pour les véhicules autonomes

Un modèle d’apprentissage automatique pour la vision par ordinateur haute résolution pourrait permettre des applications de vision à forte intensité de calcul, telles que la conduite autonome ou la segmentation d’images médicales, sur des appareils de pointe. Sur la photo, une interprétation artistique de la technologie de conduite autonome. Crédit : MIT Actualités

Un nouveau système d’IA pourrait améliorer la qualité des images en streaming vidéo ou aider les véhicules autonomes à identifier les dangers routiers en temps réel.

MIT et les chercheurs du MIT-IBM Watson AI Lab ont introduit EfficientViT, un modèle de vision par ordinateur qui accélère la segmentation sémantique en temps réel dans les images haute résolution, en l’optimisant pour les appareils dotés d’un matériel limité, tels que les véhicules autonomes.

Un véhicule autonome doit reconnaître rapidement et avec précision les objets qu’il rencontre, depuis un camion de livraison au ralenti garé au coin d’une rue jusqu’à un cycliste filant vers une intersection qui approche.

Pour ce faire, le véhicule pourrait utiliser un puissant modèle de vision par ordinateur pour catégoriser chaque pixel d’une image haute résolution de cette scène, afin de ne pas perdre de vue les objets qui pourraient être obscurcis dans une image de moindre qualité. Mais cette tâche, connue sous le nom de segmentation sémantique, est complexe et nécessite une énorme quantité de calculs lorsque l’image a une haute résolution.

Des chercheurs du MIT, du MIT-IBM Watson AI Lab et d’ailleurs ont développé un modèle de vision par ordinateur plus efficace qui réduit considérablement la complexité informatique de cette tâche. Leur modèle peut effectuer une segmentation sémantique avec précision en temps réel sur un appareil doté de ressources matérielles limitées, comme les ordinateurs de bord qui permettent à un véhicule autonome de prendre des décisions en une fraction de seconde.

Optimisation pour le traitement en temps réel

Les modèles récents de segmentation sémantique de pointe apprennent directement l’interaction entre chaque paire de pixels dans une image, de sorte que leurs calculs augmentent de façon quadratique à mesure que la résolution de l’image augmente. Pour cette raison, bien que ces modèles soient précis, ils sont trop lents pour traiter des images haute résolution en temps réel sur un appareil périphérique comme un capteur ou un téléphone mobile.

Les chercheurs du MIT ont conçu un nouvel élément de base pour les modèles de segmentation sémantique qui atteint les mêmes capacités que ces modèles de pointe, mais avec seulement une complexité informatique linéaire et des opérations matérielles efficaces.

Le résultat est une nouvelle série de modèles de vision par ordinateur haute résolution qui fonctionne jusqu’à neuf fois plus rapidement que les modèles précédents lorsqu’elle est déployée sur un appareil mobile. Il est important de noter que cette nouvelle série de modèles présentait le même ou mieux précision que ces alternatives.

MIT EfficientViT

EfficientViT pourrait permettre à un véhicule autonome d’effectuer efficacement une segmentation sémantique, une tâche de vision par ordinateur haute résolution qui consiste à catégoriser chaque pixel d’une scène afin que le véhicule puisse identifier avec précision les objets. Sur la photo, une image tirée d’une vidéo de démonstration montrant différentes couleurs pour catégoriser les objets. Crédit : Toujours avec l’aimable autorisation des chercheurs

Un examen plus approfondi de la solution

Non seulement cette technique pourrait être utilisée pour aider les véhicules autonomes à prendre des décisions en temps réel, mais elle pourrait également améliorer l’efficacité d’autres tâches de vision par ordinateur à haute résolution, telles que la segmentation d’images médicales.

« Même si les chercheurs utilisent les transformateurs de vision traditionnels depuis assez longtemps et qu’ils donnent des résultats étonnants, nous souhaitons que les gens prêtent également attention à l’aspect efficacité de ces modèles. Notre travail montre qu’il est possible de réduire considérablement le calcul afin que cette segmentation d’image en temps réel puisse se produire localement sur un appareil », explique Song Han, professeur agrégé au Département de génie électrique et d’informatique (EECS), membre de du MIT-IBM Watson AI Lab et auteur principal de l’article décrivant le nouveau modèle.

Il est rejoint dans l’article par l’auteur principal Han Cai, étudiant diplômé de l’EECS ; Junyan Li, étudiant de premier cycle à l’Université du Zhejiang ; Muyan Hu, étudiant de premier cycle à l’Université Tsinghua ; et Chuang Gan, membre principal du personnel de recherche du MIT-IBM Watson AI Lab. La recherche sera présentée à la Conférence internationale sur la vision par ordinateur.

Une solution simplifiée

Catégoriser chaque pixel d’une image haute résolution pouvant contenir des millions de pixels est une tâche difficile pour un modèle d’apprentissage automatique. Un nouveau type de modèle puissant, connu sous le nom de transformateur de vision, a récemment été utilisé efficacement.

Les transformateurs ont été initialement développés pour le traitement du langage naturel. Dans ce contexte, ils codent chaque mot d’une phrase sous forme de jeton, puis génèrent une carte d’attention, qui capture les relations de chaque jeton avec tous les autres jetons. Cette carte d’attention aide le modèle à comprendre le contexte lorsqu’il fait des prédictions.

En utilisant le même concept, un transformateur de vision découpe une image en patchs de pixels et code chaque petit patch en jeton avant de générer une carte d’attention. En générant cette carte d’attention, le modèle utilise une fonction de similarité qui apprend directement l’interaction entre chaque paire de pixels. Le modèle développe ainsi ce que l’on appelle un champ récepteur global, ce qui lui permet d’accéder à toutes les parties pertinentes de l’image.

Puisqu’une image haute résolution peut contenir des millions de pixels, regroupés en milliers de taches, la carte d’attention devient rapidement énorme. Pour cette raison, la quantité de calcul augmente quadratiquement à mesure que la résolution de l’image augmente.

Dans leur nouvelle série de modèles, appelée EfficientViT, les chercheurs du MIT ont utilisé un mécanisme plus simple pour créer la carte d’attention : remplacer la fonction de similarité non linéaire par une fonction de similarité linéaire. En tant que tels, ils peuvent réorganiser l’ordre des opérations pour réduire le total des calculs sans modifier les fonctionnalités et sans perdre le champ de réception global. Avec leur modèle, la quantité de calcul nécessaire pour une prédiction augmente linéairement à mesure que la résolution de l’image augmente.

« Mais il n’y a pas de repas gratuit. L’attention linéaire ne capture que le contexte global de l’image, perdant ainsi les informations locales, ce qui aggrave la précision », explique Han.

Pour compenser cette perte de précision, les chercheurs ont inclus deux composants supplémentaires dans leur modèle, chacun n’ajoutant qu’une petite quantité de calcul.

L’un de ces éléments aide le modèle à capturer les interactions entre les caractéristiques locales, atténuant ainsi la faiblesse de la fonction linéaire dans l’extraction d’informations locales. Le second, un module qui permet un apprentissage multi-échelle, aide le modèle à reconnaître les objets grands et petits.

« La partie la plus critique ici est que nous devons soigneusement équilibrer les performances et l’efficacité », explique Cai.

Ils ont conçu EfficientViT avec une architecture respectueuse du matériel, afin qu’il puisse être plus facile à exécuter sur différents types d’appareils, tels que les casques de réalité virtuelle ou les ordinateurs de bord des véhicules autonomes. Leur modèle pourrait également être appliqué à d’autres tâches de vision par ordinateur, comme la classification d’images.

Rationaliser la segmentation sémantique

Lorsqu’ils ont testé leur modèle sur des ensembles de données utilisés pour la segmentation sémantique, ils ont constaté qu’il fonctionnait jusqu’à neuf fois plus rapidement sur une unité de traitement graphique (GPU) Nvidia que d’autres modèles de transformateurs de vision populaires, avec une précision identique ou supérieure.

« Maintenant, nous pouvons tirer le meilleur parti des deux mondes et réduire l’informatique pour la rendre suffisamment rapide pour pouvoir l’exécuter sur des appareils mobiles et cloud », explique Han.

En s’appuyant sur ces résultats, les chercheurs souhaitent appliquer cette technique pour accélérer les modèles d’apprentissage automatique génératifs, tels que ceux utilisés pour générer de nouvelles images. Ils souhaitent également continuer à développer EfficientViT pour d’autres tâches de vision.

« Les modèles de transformateurs efficaces, mis au point par l’équipe du professeur Song Han, constituent désormais l’épine dorsale des techniques de pointe dans diverses tâches de vision par ordinateur, notamment la détection et la segmentation », déclare Lu Tian, ​​directeur principal des algorithmes d’IA chez AMD, Inc., qui a été pas impliqué dans ce document. « Leurs recherches mettent non seulement en valeur l’efficacité et la capacité des transformateurs, mais révèlent également leur immense potentiel pour des applications réelles, telles que l’amélioration de la qualité d’image dans les jeux vidéo. »

« La compression de modèles et la conception de modèles légers sont des sujets de recherche cruciaux pour une informatique efficace de l’IA, en particulier dans le contexte de grands modèles de fondation. Le groupe du professeur Song Han a montré des progrès remarquables en compressant et en accélérant les modèles modernes d’apprentissage profond, en particulier les transformateurs de vision », ajoute Jay Jackson, vice-président mondial de l’intelligence artificielle et apprentissage automatique chez Oracle, qui n’a pas participé à cette recherche. « Oracle Cloud Infrastructure a aidé son équipe à faire progresser cette ligne de recherche percutante vers une IA efficace et verte. »

Bone Cavities Dinosaur

Chaînon manquant découvert : une nouvelle recherche met en lumière la façon dont les dinosaures sont devenus des géants

Donald Trump veut accorder à ses entreprises préférées une nouvelle réduction d'impôts géante au cours d'un deuxième mandat : ​​rapport

Donald Trump veut accorder à ses entreprises préférées une nouvelle réduction d’impôts géante au cours d’un deuxième mandat : ​​rapport