Dans une nouvelle étude, les chercheurs ont suivi comment les modèles de langage actuels, tels que ChatGPT, confondent les phrases absurdes avec leur sens. Ces failles de l’IA peuvent-elles ouvrir de nouvelles fenêtres sur le cerveau ?
Nous sommes désormais entrés dans une ère de chatbots à intelligence artificielle qui semblent comprendre et utiliser le langage comme nous, les humains. Sous le capot, ces chatbots utilisent de grands modèles de langage, un type particulier de réseau neuronal. Cependant, une nouvelle étude montre que les grands modèles de langage restent vulnérables à la confusion entre des absurdités et un langage naturel. Pour une équipe de chercheurs de l’Université de Columbia, il s’agit d’une faille qui pourrait permettre d’améliorer les performances des chatbots et de révéler comment les humains traitent le langage.
Comparaison de la perception du langage humain et de l’IA
Dans un article publié en ligne dans la revue Intelligence des machines naturelles Aujourd’hui (14 septembre), les scientifiques décrivent comment ils ont défié neuf modèles de langage différents avec des centaines de paires de phrases. Pour chaque paire, les personnes ayant participé à l’étude ont choisi laquelle des deux phrases leur semblait la plus naturelle, ce qui signifie qu’elle était la plus susceptible d’être lue ou entendue dans la vie de tous les jours. Les chercheurs ont ensuite testé les modèles pour voir s’ils évalueraient chaque paire de phrases de la même manière que les humains.
Dans les tests face-à-face, les IA plus sophistiquées basées sur ce que les chercheurs appellent les réseaux neuronaux transformateurs ont tendance à mieux fonctionner que les modèles de réseaux neuronaux récurrents plus simples et les modèles statistiques qui ne font que comptabiliser la fréquence des paires de mots trouvées sur Internet ou dans des bases de données en ligne. . Mais tous les modèles ont commis des erreurs, choisissant parfois des phrases qui semblent absurdes à une oreille humaine.
Opinions d’experts et divergences entre les modèles
« Le fait que certains des grands modèles de langage fonctionnent aussi bien suggère qu’ils capturent quelque chose d’important qui manque aux modèles les plus simples », a déclaré le Dr Nikolaus Kriegeskorte, PhD, chercheur principal à l’Institut Zuckerman de Columbia et co-auteur de l’article. « Le fait que même les meilleurs modèles que nous avons étudiés puissent encore être trompés par des phrases absurdes montre que leurs calculs manquent quelque chose sur la façon dont les humains traitent le langage. »
Considérez la paire de phrases suivante que les participants humains et les IA ont évaluées dans l’étude :
C’est le récit qu’on nous a vendu.
C’est la semaine où tu meurs.
Les personnes condamnées à ces peines dans l’étude ont jugé que la première phrase était plus susceptible d’être prononcée que la seconde. Mais selon BERT, l’un des meilleurs modèles, la deuxième phrase est plus naturelle. GPT-2, peut-être le modèle le plus connu, a correctement identifié la première phrase comme étant plus naturelle, correspondant aux jugements humains.
« Chaque modèle présentait des angles morts, qualifiant certaines phrases de significatives que les participants humains pensaient être du charabia », a déclaré l’auteur principal Christopher Baldassano, PhD, professeur adjoint de psychologie à Columbia. « Cela devrait nous faire réfléchir sur la mesure dans laquelle nous voulons que les systèmes d’IA prennent des décisions importantes, du moins pour le moment. »
Comprendre l’écart entre l’IA et l’humain et les recherches futures
Les performances bonnes mais imparfaites de nombreux modèles sont l’un des résultats de l’étude qui intrigue le plus le Dr Kriegeskorte. « Comprendre pourquoi cet écart existe et pourquoi certains modèles surpassent d’autres peut faire progresser les modèles linguistiques », a-t-il déclaré.
Une autre question clé pour l’équipe de recherche est de savoir si les calculs des chatbots IA peuvent inspirer de nouvelles questions et hypothèses scientifiques qui pourraient guider les neuroscientifiques vers une meilleure compréhension du cerveau humain. Le fonctionnement de ces chatbots pourrait-il indiquer quelque chose sur les circuits de notre cerveau ?
Une analyse plus approfondie des forces et des faiblesses des différents chatbots et de leurs algorithmes sous-jacents pourrait aider à répondre à cette question.
« En fin de compte, nous souhaitons comprendre comment les gens pensent », a déclaré Tal Golan, PhD, auteur correspondant de l’article qui a quitté cette année un poste postdoctoral à l’Institut Zuckerman de Columbia pour créer son propre laboratoire à l’Université Ben Gourion du Néguev en Israël. « Ces outils d’IA sont de plus en plus puissants, mais ils traitent le langage différemment de nous. Comparer leur compréhension de la langue à la nôtre nous donne une nouvelle approche pour réfléchir à notre façon de penser.