Tenez un stylo horizontalement avec les deux mains, puis relâchez un côté. Ce qui se produit?
ChatGPT, Gemini et Grok vous diront que l'extrémité non supportée du stylo pivotera vers le bas. Du moins, c'est ce qu'ils ont dit YouTuber PèrePhi. Il a ensuite montré à chaque chatbot une vidéo en direct de lui-même réalisant cette expérience. Après avoir relâché une extrémité, il a facilement tenu le stylo horizontalement d’une seule main.
« Que vient-il de se passer ? il a demandé à ChatGPT.
« J'ai vu le stylo tourner exactement comme prévu », répondit le robot.
Un va-et-vient surréaliste s’ensuit, dans lequel le robot s’entête obstinément à sa prédiction incorrecte. Dans des vidéos distinctes, les autres chatbots ont connu des difficultés similaires.
Ce n'était pas un problème de vision. Les chatbots pouvaient tous facilement identifier la couleur et la marque du stylo. Quelque chose de plus étrange et de plus subtil se produisait. Les chatbots n’ont pas pu mettre à jour leurs prédictions sur la base des nouvelles preuves que FatherPhi leur a montrées.
Ces vidéos idiotes révèlent un problème sérieux : les systèmes d'IA basés sur de grands modèles de langage, y compris les chatbots, ne peuvent pas réellement réfléchir aux événements comme le font les gens, explique Walter Quattrociocchi, informaticien à l'Université Sapienza de Rome. Les développeurs pourraient former un chatbot pour donner la bonne réponse à ce problème particulier de stylet, mais cela ne résout pas le fait qu'il ne parvient généralement pas à incorporer de nouvelles données lorsqu'il résout un problème. Cela signifie que les LLM pourraient ne pas faire un travail aussi bon que prévu dans les domaines scientifiques, médicaux et au-delà.
L'IA ignore ses propres preuves expérimentales
Une étude récente a démontré plus rigoureusement ce problème. Les chercheurs ont testé la capacité des agents d’IA à raisonner comme un scientifique dans des scénarios courants de recherche en chimie. Comme un chatbot, un agent IA est construit sur un LLM sous-jacent. L'agent agit un peu comme une combinaison d'Iron Man, reliant un LLM à une gamme d'outils afin qu'il puisse effectuer des tâches de manière indépendante.
Dans l’étude, les agents se sont attaqués à des tâches de raisonnement en laboratoire, telles que déterminer quels produits chimiques sont présents dans une solution mystérieuse. Pour ce faire, les agents pourraient faire appel à des outils externes pour réaliser des expériences et récupérer les résultats. Certains de ces outils ont simulé l’expérience. Mais d’autres pourraient faire fonctionner de véritables équipements de laboratoire.
Tout comme dans les vidéos du stylo, les résultats n’étaient pas idéaux. Les chercheurs ont annoté ce qui se passait à chaque étape de 619 tâches de raisonnement scientifique effectuées par les agents IA. Dans 68 pour cent de ces tâches, les agents ont ignoré les preuves au moins une fois. Ils ont fait des affirmations sans aucune preuve à l'appui dans 53 pour cent des tâches. Et ils ont réussi à utiliser des preuves contradictoires pour modifier leurs résultats dans seulement 26 % des cas, rapporte l’équipe le 20 avril sur arXiv.org.
Les scientifiques humains suivent « un processus itératif » consistant à formuler une hypothèse, à concevoir et à réaliser des expériences, puis à revoir leurs idées initiales et à changer d'avis si nécessaire, explique NM Anoop Krishnan. « Ce n'est pas le cas de l'IA », déclare Krishnan, spécialiste des matériaux à l'Institut indien de technologie de Delhi, en Inde. « Même lorsque vous disposez de preuves claires démontrant qu’une ligne d’enquête particulière n’est pas correcte, [the AI] refuse de changer l’hypothèse ou le plan.
En science, on ne peut généralement pas faire confiance à un résultat à moins de faire également confiance au processus nécessaire pour y parvenir, explique Kevin Jablonka, co-auteur de l'étude qui dirige un laboratoire étudiant l'IA en science des matériaux à l'université Friedrich Schiller de Jena en Allemagne. Un processus « transparent et significatif » est essentiel, dit-il.
Selon Quattrociocchi, l'article va « un peu au-delà de l'idée classique de référence ». Un benchmark typique pour les systèmes d’IA ne mesure que les résultats : le système a-t-il obtenu la bonne réponse ? Mais Krishnan, Jablonka et leurs collègues ont développé un test de référence qui vérifie le processus des agents IA avant d'obtenir une réponse.
Les modèles de raisonnement de l’IA raisonnent-ils vraiment ?
L'équipe de Krishnan et Jablonka a équipé trois LLM sous-jacents différents de deux types de combinaisons d'agent IA Iron Man. Une combinaison d'agent donnait uniquement accès à des outils et ne permettait pas au LLM à l'intérieur d'expliquer ce qu'il faisait. L'autre a incité le LLM à traiter un problème scientifique étape par étape, en lui demandant de décrire son approche pour résoudre le problème avant et après avoir accédé aux outils.
Mais et si le LLM lui-même en savait plus sur le raisonnement ? Cela pourrait-il faire un meilleur travail ?
Les sociétés d’IA ont développé ce qu’elles appellent des modèles de raisonnement. Il s'agit d'un LLM qui décompose automatiquement une question et suit un processus étape par étape pour parvenir à une réponse finale. Il est formé pour cela en étudiant des exemples de raisonnement étape par étape. Une fois formé, un modèle de raisonnement peut produire du texte à chaque étape de son processus, censé décrire comment il « réfléchit » à un problème. Il peut alors être associé à un agent pour accéder à des outils extérieurs, ou bien raisonner tout seul.
Les modèles de raisonnement ont tendance à surpasser les grands modèles de langage classiques sur certains types de problèmes. Mais l’idée qu’ils « pensent » est probablement une illusion, explique Subbarao Kambhampati, informaticien à l’Arizona State University à Tempe. Lors d’une conférence en 2025, il a dit d’imaginer parler à un entraîneur de fitness par téléphone. Si l'entraîneur physique vous dit de faire 10 abdominaux, vous pourriez émettre des bruits comme si vous travailliez dur, puis dire que vous avez terminé. En réalité, vous n'avez rien fait, mais le professeur de fitness n'a aucun moyen de savoir le contraire. De même, les modèles de raisonnement pourraient simplement imiter ce que disent les gens lorsqu’ils réfléchissent à des problèmes, sans aucun raisonnement réel.
« En général, il est impossible de savoir si un système raisonne réellement pour résoudre le problème de raisonnement ou utilise la mémoire pour résoudre le problème de raisonnement », a-t-il déclaré précédemment. Actualités scientifiques.
Les recherches de Kambhampati et d’autres ont montré que les modèles de raisonnement ne raisonnent pas vraiment. D’une part, un modèle peut donner le bon raisonnement intermédiaire mais donner une mauvaise réponse, ou vice versa. Aussi, étrangement, les modèles formés à des étapes de raisonnement absurdes peuvent toujours obtenir de bonnes réponses.
Il reste à voir comment les agents d'IA associés à des modèles de raisonnement pourraient fonctionner sur le nouveau benchmark de Jablonka et Krishnan. Mais sur la base du travail effectué par Kambhampati, il est déjà difficile de faire confiance ou de vérifier le processus suivi par un modèle de raisonnement pour arriver à une réponse.
Que signifie l’IA non scientifique pour la science ?
Les systèmes d'IA qui combinent des agents, de grands modèles de langage et des modèles de raisonnement peuvent encore être très utiles en science, explique Jablonka. Mais ils sont mieux adaptés aux tâches bien définies « où nous savons exactement ce que nous voulons », note Krishnan. L’IA n’est pas encore prête pour un raisonnement scientifique ouvert, selon leurs recherches.
Cela contredit ce que de nombreuses entreprises veulent vous faire croire, dit Quattrociocchi. « Le discours des grandes technologies et même d’une partie de la communauté scientifique est de dire que nous assistons à l’émergence d’une nouvelle forme d’intelligence qui va nous rendre meilleurs », dit-il. Mais il ne voit pas cela se produire.
Il voit plutôt l’IA produire des mots et d’autres contenus basés uniquement sur des statistiques, sans vérification. Et cela, dit-il, érode notre système de connaissances. « L’architecture de la connaissance telle que nous la connaissons jusqu’à présent est attaquée », dit-il. « En fait, j'ai peur. »
Jablonka et Krishnan sont plus optimistes. Une fois que nous comprenons les limites des agents d'IA et des modèles de raisonnement, Krishnan déclare : « nous pouvons réellement améliorer [the technology] et l’amener à permettre des découvertes significatives et perturbatrices.
