Un classement de l'IA suggère que les nouveaux modèles de raisonnement utilisés dans les chatbots produisent des résultats moins précis en raison de taux d'hallucination plus élevés. Les experts disent que le problème est plus grand que ça

Les erreurs ont tendance à survenir dans un contenu généré par l'AI
Les chatbots d'IA de sociétés technologiques tels que OpenAI et Google ont obtenu des mises à niveau dits de raisonnement au cours des derniers mois – idéalement pour les améliorer pour nous donner des réponses auxquelles nous pouvons faire confiance, mais les tests récents suggèrent qu'ils font parfois pire que les modèles précédents. Les erreurs commises par les chatbots, appelées «hallucinations», ont été un problème dès le départ, et il devient clair que nous ne nous en débarrasser pas.
L'hallucination est un terme couverture pour certains types d'erreurs commises par les modèles de grande langue (LLM) que les systèmes d'alimentation comme le chatppt d'Openai ou les Gémeaux de Google. Il est mieux connu comme une description de la façon dont ils présentent parfois de fausses informations comme vraies. Mais il peut également se référer à une réponse générée par l'AI qui est factuellement exacte, mais pas réellement pertinente pour la question qui lui a été posée, ou qui ne suit pas les instructions d'une autre manière.
Un rapport technique OpenAI évaluant ses derniers LLMS a montré que ses modèles O3 et O4-MinI, qui ont été publiés en avril, avaient des taux d'hallucination nettement plus élevés que le modèle O1 précédent de la société qui est sorti à la fin de 2024. Par exemple, lors du résumé des faits publics sur les personnes, O3 a halluciné 33% du temps, tandis que O4-Mini a donc été 48 pour le temps. En comparaison, O1 avait un taux d'hallucination de 16%.
Le problème ne se limite pas à Openai. Un classement populaire de la société Vectara qui évalue les taux d'hallucination indique certains modèles de «raisonnement» – y compris le modèle Deepseek-R1 du développeur Deepseek – a vu des hausses à deux chiffres dans les taux d'hallucination par rapport aux modèles précédents de leurs développeurs. Ce type de modèle passe par plusieurs étapes pour démontrer une ligne de raisonnement avant de répondre.
Openai dit que le processus de raisonnement n'est pas à blâmer. «Les hallucinations ne sont pas intrinsèquement plus répandues dans les modèles de raisonnement, bien que nous travaillions activement à réduire les taux d'hallucination plus élevés que nous avons vus dans O3 et O4-MinI», explique un porte-parole d'OpenAI. «Nous poursuivrons nos recherches sur les hallucinations sur tous les modèles pour améliorer la précision et la fiabilité.»
Certaines applications potentielles pour les LLM pourraient être déraillées par hallucination. Un modèle qui indique systématiquement les mensonges et nécessite la vérification des faits ne sera pas un assistant de recherche utile; Un bot parajuriste qui cite des cas imaginaires causera des ennuis à des avocats; Un agent du service client qui prétend que les politiques obsolètes sont toujours actives créeront des maux de tête pour l'entreprise.
Cependant, les sociétés d'IA ont initialement affirmé que ce problème s'éclaircirait avec le temps. En effet, après avoir été lancé pour la première fois, les modèles ont eu tendance à halluciner moins à chaque mise à jour. Mais les taux d'hallucination élevés des versions récentes compliquent ce récit – que le raisonnement soit en faute ou non.
Le classement de Vectara classe les modèles en fonction de leur cohérence factuelle dans le résumé des documents qui leur sont donnés. Cela a montré que «les taux d'hallucination sont presque les mêmes pour le raisonnement par rapport aux modèles non renvoyants», du moins pour les systèmes d'Openai et de Google, explique Forrest Sheng Bao chez Vectara. Google n'a pas fourni de commentaires supplémentaires. Pour les fins du classement, les numéros de taux d'hallucination spécifiques sont moins importants que le classement global de chaque modèle, explique Bao.
Mais ce classement n'est peut-être pas le meilleur moyen de comparer les modèles d'IA.
D'une part, cela confond différents types d'hallucinations. L'équipe de Vectara a souligné que, bien que le modèle Deepseek-R1 ait halluciné 14,3% du temps, la plupart d'entre eux étaient «bénins»: des réponses qui sont factuellement soutenues par un raisonnement logique ou des connaissances mondiales, mais pas réellement présents dans le texte original que le bot a été invité à résumer. Deepseek n'a pas fourni de commentaires supplémentaires.
Un autre problème avec ce type de classement est que les tests basés sur la résumé de texte «ne dit rien sur le taux de résultats incorrects lorsque (LLMS) sont utilisés pour d'autres tâches», explique Emily Bender à l'Université de Washington. Elle dit que les résultats du classement peuvent ne pas être le meilleur moyen de juger de cette technologie car les LLM ne sont pas conçues spécifiquement pour résumer les textes.
Ces modèles fonctionnent en répondant à plusieurs reprises à la question de «ce qui est probable un prochain mot» pour formuler des réponses aux invites, et ils ne traitent donc pas les informations dans le sens habituel d'essayer de comprendre quelles informations sont disponibles dans un ensemble de texte, explique Bender. Mais de nombreuses entreprises technologiques utilisent toujours fréquemment le terme «hallucinations» lors de la description des erreurs de sortie.
«« Hallucination »en tant que terme est doublement problématique», explique Bender. «D'une part, cela suggère que des sorties incorrectes sont une aberration, peut-être une qui peut être atténuée, tandis que le reste du temps où les systèmes sont ancrés, fiables et dignes de confiance. D'autre part, il fonctionne pour anthropomorphise les machines – Hallucination fait référence à percevoir quelque chose qui n'est pas là (et) les modèles linguistiques importants ne permettent à rien.»
Arvind Narayanan à l'Université de Princeton dit que le problème va au-delà de l'hallucination. Les modèles font également parfois d'autres erreurs, telles que des sources non fiables ou l'utilisation d'informations obsolètes. Et le simple fait de lancer plus de données d'entraînement et de puissance informatique à l'IA n'a pas nécessairement aidé.
Le résultat est que nous devrons peut-être vivre avec l'IA sujet aux erreurs. Narayanan a déclaré dans un article sur les réseaux sociaux qu'il peut être préférable dans certains cas d'utiliser de tels modèles uniquement pour les tâches que la vérification des faits de la réponse de l'IA serait toujours plus rapide que de faire la recherche vous-même. Mais le meilleur mouvement peut être d'éviter complètement de compter sur les chatbots d'IA pour fournir des informations factuelles, explique Bender.


