Une nouvelle étude de l’UCLA révèle la capacité remarquable du modèle d’IA GPT-3 à résoudre des problèmes de raisonnement, bien qu’avec des limites. Le GPT-4 étant encore plus prometteur, les chercheurs sont intrigués par le potentiel de l’IA à approcher un raisonnement de type humain, posant des questions importantes pour le développement futur de l’IA.
UCLA les chercheurs ont montré que le modèle d’IA GPT-3 peut résoudre des problèmes de raisonnement à un niveau comparable à celui des étudiants.
Les gens résolvent facilement de nouveaux problèmes sans aucune formation ou pratique particulière en les comparant à des problèmes familiers et en étendant la solution au nouveau problème. Ce processus, connu sous le nom de raisonnement analogique, a longtemps été considéré comme une capacité humaine unique.
« Étonnamment, non seulement GPT-3 a fait à peu près aussi bien que les humains, mais il a également commis des erreurs similaires. » — Hongjing Lu
Mais maintenant, les gens pourraient devoir faire de la place pour un nouveau venu dans le quartier.
Des recherches menées par des psychologues de l’Université de Californie à Los Angeles (UCLA) montrent que, étonnamment, le modèle de langage d’intelligence artificielle GPT-3 fonctionne à peu près aussi bien que les étudiants de premier cycle lorsqu’on leur demande de résoudre le type de problèmes de raisonnement qui apparaissent généralement sur les tests d’intelligence et tests standardisés tels que le SAT. L’étude sera publiée aujourd’hui (31 juillet) dans la revue Nature Comportement humain.
Explorer les processus cognitifs de l’IA
Mais les auteurs de l’article écrivent que l’étude soulève la question suivante : le GPT-3 imite-t-il le raisonnement humain en tant que sous-produit de son énorme ensemble de données d’apprentissage linguistique ou utilise-t-il un type de processus cognitif fondamentalement nouveau ?
Sans accès au fonctionnement interne de GPT-3 – qui est gardé par OpenAI, la société qui l’a créé – les scientifiques de l’UCLA ne peuvent pas dire avec certitude comment fonctionnent ses capacités de raisonnement. Ils écrivent également que bien que GPT-3 fonctionne bien mieux que prévu dans certaines tâches de raisonnement, l’outil d’IA populaire échoue toujours de manière spectaculaire dans d’autres.
Principales limites de l’IA dans les tâches de raisonnement
« Peu importe à quel point nos résultats sont impressionnants, il est important de souligner que ce système a des limites majeures », a déclaré Taylor Webb, chercheur postdoctoral en psychologie à l’UCLA et premier auteur de l’étude. « Il peut faire un raisonnement analogique, mais il ne peut pas faire des choses très faciles pour les gens, comme utiliser des outils pour résoudre une tâche physique. Lorsque nous lui avons posé ce genre de problèmes – dont certains que les enfants peuvent résoudre rapidement – les choses qu’il suggérait étaient absurdes.
Webb et ses collègues ont testé la capacité de GPT-3 à résoudre un ensemble de problèmes inspirés d’un test connu sous le nom de Raven’s Progressive Matrices, qui demande au sujet de prédire l’image suivante dans un agencement compliqué de formes. Pour permettre à GPT-3 de « voir » les formes, Webb a converti les images dans un format texte que GPT-3 pouvait traiter ; cette approche garantissait également que l’IA n’aurait jamais rencontré les questions auparavant.
Les chercheurs ont demandé à 40 étudiants de premier cycle de l’UCLA de résoudre les mêmes problèmes.
Résultats surprenants et implications futures
« Étonnamment, non seulement le GPT-3 a fait à peu près aussi bien que les humains, mais il a également commis des erreurs similaires », a déclaré Hongjing Lu, professeur de psychologie à l’UCLA, auteur principal de l’étude.
Le GPT-3 a résolu correctement 80 % des problèmes – bien au-dessus du score moyen des sujets humains juste en dessous de 60 %, mais bien dans la fourchette des scores humains les plus élevés.
Les chercheurs ont également incité GPT-3 à résoudre un ensemble de questions d’analogie SAT qui, selon eux, n’ont jamais été publiées sur Internet, ce qui signifie qu’il est peu probable que les questions aient fait partie des données d’entraînement de GPT-3. Les questions demandent aux utilisateurs de sélectionner des paires de mots qui partagent le même type de relations. (Par exemple, dans le problème « ‘aimer’ c’est ‘haïr’ comme ‘riche’ est à quel mot ? », la solution serait « pauvre ».)
Ils ont comparé les scores de GPT-3 aux résultats publiés des scores SAT des candidats à l’université et ont constaté que l’IA fonctionnait mieux que le score moyen des humains.
Repousser les limites de l’IA : de GPT-3 à GPT-4
Les chercheurs ont ensuite demandé à GPT-3 et à des étudiants volontaires de résoudre des analogies basées sur des histoires courtes, les incitant à lire un passage, puis à identifier une histoire différente qui véhiculait le même sens. La technologie a moins bien réussi que les étudiants sur ces problèmes, bien que GPT-4, la dernière itération de la technologie OpenAI, ait mieux performé que GPT-3.
Les chercheurs de l’UCLA ont développé leur propre modèle informatique, inspiré de la cognition humaine, et ont comparé ses capacités à celles de l’IA commerciale.
« L’IA s’améliorait, mais notre modèle d’IA psychologique était toujours le meilleur pour résoudre les problèmes d’analogie jusqu’en décembre dernier, lorsque Taylor a obtenu la dernière mise à jour de GPT-3, et c’était aussi bon ou meilleur », a déclaré Keith Holyoak, professeur de psychologie à l’UCLA. co-auteur de l’étude.
Les chercheurs ont déclaré que GPT-3 n’a pas été en mesure jusqu’à présent de résoudre les problèmes qui nécessitent de comprendre l’espace physique. Par exemple, s’il était fourni avec des descriptions d’un ensemble d’outils – disons, un tube en carton, des ciseaux et du ruban adhésif – qu’il pourrait utiliser pour transférer des boules de gomme d’un bol à un autre, GPT-3 a proposé des solutions bizarres.
« Les modèles d’apprentissage des langues essaient simplement de faire de la prédiction de mots, nous sommes donc surpris qu’ils puissent faire du raisonnement », a déclaré Lu. « Au cours des deux dernières années, la technologie a fait un grand bond par rapport à ses incarnations précédentes. »
Les scientifiques de l’UCLA espèrent explorer si les modèles d’apprentissage des langues commencent réellement à « penser » comme les humains ou font quelque chose de complètement différent qui imite simplement la pensée humaine.
Penser comme les humains ?
« GPT-3 pourrait être un peu penser comme un humain », a déclaré Holyoak. « Mais d’un autre côté, les gens n’ont pas appris en ingérant tout Internet, donc la méthode de formation est complètement différente. Nous aimerions savoir si cela fonctionne vraiment comme les gens le font, ou s’il s’agit de quelque chose de tout nouveau – une véritable intelligence artificielle – qui serait incroyable en soi.
Pour le savoir, ils devraient déterminer les processus cognitifs sous-jacents que les modèles d’IA utilisent, ce qui nécessiterait l’accès au logiciel et aux données utilisées pour entraîner le logiciel, puis administrer des tests dont ils sont sûrs que le logiciel n’a pas déjà été utilisé. donné. Cela, ont-ils dit, serait la prochaine étape pour décider de ce que l’IA devrait devenir.
« Il serait très utile pour les chercheurs en IA et cognitifs d’avoir le backend des modèles GPT », a déclaré Webb. « Nous ne faisons que des intrants et obtenons des extrants et ce n’est pas aussi décisif que nous le souhaiterions. »


