Les PDG technologiques promettent des visions de plus en plus bizarres des années 2030, propulsées par la « superintelligence », mais la réalité est que même les modèles d'IA les plus avancés peuvent encore lutter avec des puzzles simples

Les machines sont-elles sur le point de devenir plus intelligentes que les humains?
Si vous prenez les dirigeants des sociétés d'intelligence artificielle à leur parole, leurs produits signifient que la prochaine décennie sera assez différente de l'histoire humaine: une ère d'or de «l'abondance radicale», où la physique à haute énergie est «résolue» et nous voyons le début de la colonisation spatiale. Mais les chercheurs qui travaillent avec les systèmes d'IA les plus puissants d'aujourd'hui trouvent une réalité différente, dans laquelle même les meilleurs modèles ne résolvent pas les puzzles de base que la plupart des humains trouvent trivial, tandis que la promesse de l'IA qui peut «raisonner» semble exagérée. Alors, qui devriez-vous croire?
Sam Altman et Demis Hassabis, les PDG d'Openai et Google Deepmind, respectivement, ont tous deux fait des allégations récentes selon lesquelles des systèmes d'IA puissants et modifiés dans le monde sont à nos portes. Dans un article de blog, Altman écrit que «les années 2030 vont probablement être extrêmement différentes de tout moment auparavant», en spéculant que nous pourrions passer «d'une percée majeure de la science des matériaux un an à de véritables interfaces de récompense cérébrale à la largeur à large bande passante l'année prochaine».
Hassabis, dans une interview avec Câbléa également déclaré que dans les années 2030, l'intelligence générale artificielle (AGI) commencera à résoudre des problèmes tels que «guérir les maladies terribles», conduisant à «des durées de vie beaucoup plus saines et plus longues», ainsi que de trouver de nouvelles sources d'énergie. « Si tout se produit », a déclaré Hassabis dans l'interview, « alors ce devrait être une époque de florissante humaine maximale, où nous nous rendons aux étoiles et colonisons la galaxie. »
Cette vision repose fortement sur l'hypothèse que les modèles de grande langue (LLMS) comme Chatgpt deviennent plus capables, plus les données de formation et la puissance informatique que nous leur avons jetés. Cette «loi d'échelle» semble avoir été vraie au cours des dernières années, mais il y a eu des indices qui ont faim. Par exemple, le récent modèle GPT-4.5 d'OpenAI, qui a probablement coûté des centaines de millions de dollars à s'entraîner, n'a atteint que de modestes améliorations par rapport à son prédécesseur GPT-4. Et ce coût n'est rien comparé aux dépenses futures, avec des rapports suggérant que Meta est sur le point d'annoncer un investissement de 15 milliards de dollars dans le but d'atteindre la «superintelligence».
L'argent n'est pas la seule tentative de solution à ce problème, cependant – les entreprises d'IA se sont également tournées vers des modèles de «raisonnement», comme O1 d'Openai, qui a été publié l'année dernière. Ces modèles utilisent plus de temps informatique et prennent donc plus de temps pour produire une réponse, renforçant leurs propres sorties en eux-mêmes. Ce processus itératif a été étiqueté «chaîne de pensées», dans le but de faire des comparaisons avec la façon dont une personne pourrait réfléchir à des problèmes étape par étape. « Il y avait des raisons légitimes de se préoccuper du plateau de l'IA », a déclaré Noam Brown à Openai Nouveau scientifique L'année dernière, mais O1 et des modèles comme cela signifiait que la «loi de mise à l'échelle» pouvait se poursuivre, a-t-il soutenu.
Pourtant, des recherches récentes ont révélé que ces modèles de raisonnement peuvent trébucher même sur des puzzles logiques simples. Par exemple, les chercheurs d'Apple ont testé les modèles de raisonnement de la société d'IA chinois Deepseek et les modèles de pensée Claude d'Anthropic, qui fonctionnent comme O1-Family of Models d'Openai. Les chercheurs ont constaté qu'ils avaient «des limites de calcul exact: ils ne parviennent pas à utiliser des algorithmes explicites et des raisons de façon incohérente à travers les puzzles», ont écrit les chercheurs.
L'équipe a testé l'IA sur plusieurs puzzles, comme un scénario dans lequel une personne doit transporter des objets à travers une rivière dans le moins de marches, et Tower of Hanoi, un jeu où vous devez déplacer des anneaux un par un entre trois poteaux sans placer un anneau plus grand au-dessus d'un plus petit. Bien que les modèles puissent résoudre les puzzles à leurs environnements les plus simples, ils ont eu du mal à augmenter le nombre d'anneaux ou d'articles à transporter. Bien que nous passions plus de temps à réfléchir à un problème plus complexe, les chercheurs ont constaté que les modèles d'IA utilisaient moins de «jetons» – des morceaux d'information – à mesure que la complexité des problèmes augmentait, ce qui suggère que le temps de «pensée» affichée est une illusion.
«La partie dommageable est que ce sont des tâches facilement résolubles», explique Artur Garcez à City, Université de Londres. «Nous savions déjà il y a 50 ans comment utiliser le raisonnement d'IA symbolique pour les résoudre.» Il est possible que ces nouveaux systèmes puissent être fixés et améliorés pour pouvoir éventuellement raisonner à travers des problèmes complexes, mais cette recherche montre qu'il est peu probable que cela se produise uniquement en augmentant la taille des modèles ou les ressources de calcul qui leur sont données, explique Garcez.
C'est également un rappel que ces modèles ont encore du mal à résoudre des scénarios qu'ils n'ont pas vus en dehors de leurs données de formation, explique Nikos Aletras à l'Université de Sheffield. «Ils fonctionnent assez bien dans de nombreux cas, comme trouver, recueillir des informations, puis les résumer, mais ces modèles ont été formés pour faire ce genre de choses, et cela semble magique, mais ce n'est pas le cas – ils ont été formés pour ce faire», explique Aletras. «Maintenant, je pense que la recherche sur Apple a trouvé un angle mort.»
Pendant ce temps, d'autres recherches montrent qu'une augmentation du temps de «réflexion» peut en fait nuire aux performances d'un modèle d'IA. Soumya Suvra Ghosal et ses collègues de l'Université du Maryland ont testé les modèles de Deepseek et ont constaté que des processus de «chaîne de pensée» plus longs ont conduit à une précision réduite des tests de raisonnement mathématique. Par exemple, pour une référence mathématique, ils ont constaté que le triplement de la quantité de jetons utilisés par un modèle peut augmenter ses performances d'environ 5%. Mais en utilisant 10 à 15 fois plus de jetons a de nouveau baissé le score de référence d'environ 17%.
Dans certains cas, il apparaît que la sortie de la «chaîne de pensée» produite par une AI a peu de relation avec la réponse éventuelle qu'elle fournit. Lors du test des modèles de Deepseek sur la capacité de naviguer dans des labyrinthes simples, Subbarao Kambhampati à l'Arizona State University et ses collègues ont constaté que même lorsque l'IA a résolu le problème, sa sortie «chaîne de pensée» contenait des erreurs qui ne se reflétaient pas dans la solution finale. De plus, nourrir l'AI, une «chaîne de pensée» dénuée de sens pourrait réellement produire de meilleures réponses.
«Nos résultats remettent en question l'hypothèse dominante que les jetons intermédiaires ou les« chaînes de pensée »peuvent être interprétés sémantiquement comme les traces du raisonnement interne des modèles d'IA, et la prudence contre les anthropomorphising de cette façon», explique Kambhampati.
En effet, toutes les études suggèrent que les étiquettes de «réflexion» ou de «raisonnement» pour ces modèles d'IA sont un terme impropre, explique Anna Rogers à l'Université informatique de Copenhague au Danemark. « Depuis aussi longtemps que je suis dans ce domaine, chaque technique populaire à laquelle je peux penser a d'abord été excitée par une vague analogie à consonance cognitive, ce qui (était) alors finalement avéré. »
Andreas Vlachos de l'Université de Cambridge souligne que les LLM ont encore des applications claires dans la génération de texte et d'autres tâches, mais dit que les dernières recherches suggèrent que nous pourrions avoir du mal à les résoudre le type de problèmes complexes qu'Altman et Hassabis ont promis qui seront résolus en quelques années.
«Fondamentalement, il y a un décalage entre ce que ces modèles sont formés, qui est une prédiction des mots suivants, par opposition à ce que nous essayons de les faire faire, c'est-à-dire pour produire un raisonnement», explique Vlachos.
Openai n'est cependant pas d'accord. «Notre travail montre que des méthodes de raisonnement comme la chaîne de pensées peuvent améliorer considérablement les performances sur des problèmes complexes, et nous travaillons activement à étendre ces capacités grâce à une meilleure formation, évaluation et conception du modèle», explique un porte-parole. Deepseek n'a pas répondu à une demande de commentaires.


