Les voitures autonomes pourraient bénéficier d’une détection améliorée des objets grâce à l’apprentissage auto-supervisé.
Le développement d’avatars robotiques pourrait bénéficier d’une amélioration de la façon dont les ordinateurs détectent les objets dans les images basse résolution.
Une équipe de RIKEN a amélioré les capacités de reconnaissance de vision par ordinateur en entraînant des algorithmes pour mieux identifier les objets dans les images basse résolution. Inspiré des techniques de formation de la mémoire du cerveau humain, le modèle dégrade la qualité des images haute résolution pour entraîner l’algorithme à un apprentissage auto-supervisé, améliorant ainsi la reconnaissance des objets dans les images de faible qualité. Ce développement devrait profiter non seulement aux applications traditionnelles de vision par ordinateur, mais également à la création d’avatars cybernétiques et à la technologie d’imagerie térahertz.
Amélioration de la vision d’un avatar robotique inspirée de la perception humaine
Une simple modification des algorithmes généralement utilisés pour améliorer les images pourrait considérablement améliorer les capacités de reconnaissance de la vision par ordinateur dans des applications allant des voitures autonomes aux avatars cybernétiques. Ceci est démontré par de nouvelles recherches menées par des scientifiques du RIKEN au Japon.
Approche non conventionnelle de la vision par ordinateur
Distinctement différent de la plupart des experts en intelligence artificielle (IA), Lin Gu du RIKEN Center for Advanced Intelligence Project a commencé sa carrière en tant que thérapeute. Cette expérience lui a donné un aperçu unique de la variance d’échelle, un problème critique auquel est confrontée la vision par ordinateur et qui fait référence à la difficulté de détecter avec précision des objets à différentes échelles dans une image. Étant donné que la plupart des systèmes d’IA sont formés sur des images haute résolution, les images réalistes de mauvaise qualité présentant des caractéristiques floues ou déformées posent un défi aux algorithmes de reconnaissance.
La situation a rappelé à Gu le syndrome d’Alice au pays des merveilles, une condition de vision déformée qui fait paraître les objets plus petits ou plus grands qu’ils ne le sont réellement. « La vision humaine a une taille constante, ce qui signifie que nous percevons les objets comme ayant la même taille malgré les changements de l’image rétinienne », explique Gu. « En revanche, les algorithmes de vision par ordinateur existants manquent de cette constance, comme Alice. »
Une nouvelle approche de la reconnaissance d’images
Aujourd’hui, inspirés par les techniques de relecture de l’hippocampe utilisées par le cerveau pour former des souvenirs, Gu et ses collègues ont développé un modèle qui dégrade de manière aléatoire la résolution, le flou et le bruit d’une image haute résolution, en recherchant des caractéristiques qui restent les mêmes après des changements répétés. .
Lin Gu (à gauche) et Tatsuya Harada (à droite) ont dirigé une équipe qui a développé un algorithme d’IA capable d’améliorer la détection d’objets assistée par ordinateur dans les voitures autonomes et les avatars cybernétiques. Crédit : © 2023 RIKEN
En s’entraînant sur les données générées, l’algorithme peut effectuer un apprentissage auto-supervisé : aider d’autres algorithmes de traitement d’image à déterminer quels objets se trouvent dans l’image et où ils se trouvent sans intervention humaine. Le résultat : une méthode de codage et de restauration des détails critiques d’une image plus efficace sur le plan informatique.
« Dans les méthodes d’apprentissage auto-supervisées typiques, les données d’entraînement sont modifiées soit en masquant une partie de l’image, soit en modifiant le contraste avant d’apprendre le signal de supervision », explique Gu. « Nous proposons pour la première fois d’utiliser la résolution comme indice d’auto-supervision. »
Implications et collaborations futures
Outre les utilisations typiques de la vision par ordinateur, Gu note que la représentation perceptuelle constante sera un élément fondamental des technologies liées aux cyborgs et aux avatars. A titre d’exemple, il cite sa participation à un projet futuriste des agences scientifiques japonaises visant à créer une version numérique réaliste d’un ministre du gouvernement pouvant interagir avec les citoyens.
« Pour le mécanisme de mémoire artificielle, les représentations invariantes aux changements de résolution peuvent servir de clé de voûte », explique Gu. « Je travaille avec des neuroscientifiques du RIKEN pour explorer la relation entre la représentation artificielle perpétuelle et la représentation réelle dans le cerveau. »
Cette méthode est également appliquée à l’imagerie térahertz, une technique d’imagerie non destructive émergente présentant un grand potentiel en biomédecine, en sécurité et en caractérisation des matériaux. « Dans le cadre d’une collaboration continue avec l’équipe de Michael Johnston de l’Université d’Oxford, nous développons une nouvelle génération d’appareils d’imagerie térahertz en utilisant l’IA pour améliorer sa qualité et sa résolution », explique Gu.


