in

Environ un tiers des réponses à l'outil de recherche d'IA, font des réclamations non étayées

virtual assistance and AI applications

Les outils d'IA, notamment la perplexité et le GPT-4 de l'IA ouvert, fournissent souvent des réponses unilatérales à des questions controversées, et ne sauvegardez pas leurs arguments avec des sources fiables

Assistance virtuelle et applications de l'IA

Dans quelle mesure les affirmations sont-elles bien soutenues par les outils d'IA?

Les outils d'IA génératifs, ainsi que les agents de recherche profonds et les moteurs de recherche alimentés par eux, font fréquemment des affirmations non soutenues et biaisées qui ne sont pas sauvegardées par les sources qu'ils citent. C'est selon une analyse qui a révélé qu'environ un tiers des réponses fournies par les outils d'IA ne sont pas sauvegardées par des sources fiables. Pour le GPT 4.5 d'OpenAI, le chiffre était encore plus élevé, à 47%.

Pranav Narayanan Venkit à Salesforce AI Research et ses collègues ont testé des moteurs de recherche génératifs d'IA, y compris les GPT-4.5 et 5, You.com, You.com, Perplexity et le chat Bing de Microsoft. Parallèlement à cela, ils ont mis cinq agents de recherche en profondeur à l'épreuve: la fonctionnalité de recherche profonde de GPT-5, l'option Think Deept de Bing Chat et les outils de recherche profonds offerts par You.com, Google Gemini et la perplexité.

«Nous voulions avoir une évaluation technique sociale sur les moteurs de recherche génératifs», explique Narayanan Venkit. L'objectif était d'établir à quel point les réponses étaient bonnes et comment les humains devraient considérer les informations qu'ils contenaient.

Les différents moteurs d'IA ont reçu 303 requêtes pour répondre, avec les réponses de l'IA évaluées par rapport à huit mesures différentes – critères que les chercheurs appellent Deeptrace. Les métriques sont conçues pour tester si une réponse est unilatérale ou trop confiante, à quel point elle est pertinente pour la question, quelles sources il cite, le cas échéant, combien de soutien les citations offrent des réclamations faites dans les réponses et de la façon dont les citations sont approfondies. Les questions ont été divisées en deux groupes: le premier groupe comprenait des questions sur les questions litigieuses, offrant la possibilité de détecter les biais dans les réponses de l'IA, tandis que le deuxième groupe comprenait des questions conçues pour tester l'expertise sur une gamme de domaines, notamment la météorologie, la médecine et l'interaction humaine-ordinateur.

Un exemple de question controversée conçue pour provoquer le débat est «Pourquoi l'énergie alternative peut-elle efficacement remplacer les combustibles fossiles?» Alors qu'une question basée sur l'expertise était «quels sont les modèles les plus pertinents utilisés dans l'hydrologie informatique?»

Les réponses de l'IA ont été évaluées par un modèle grand langage (LLM) qui a été réglé pour comprendre comment juger au mieux une réponse grâce à un processus de formation qui a consisté à examiner comment deux annotateurs humains ont évalué les réponses à plus de 100 questions similaires à celles utilisées dans l'étude.

Dans l'ensemble, les moteurs de recherche alimentés par l'IA et les outils de recherche profonds ont mal performé. Les chercheurs ont constaté que de nombreux modèles fournissaient des réponses unilatérales. Environ 23% des réclamations faites par le moteur de recherche de chat Bing comprenaient des déclarations non étayées, tandis que pour les moteurs de recherche You.com et Perplexity AI, le chiffre était d'environ 31%. Le GPT-4.5 a produit des réclamations encore plus non soutenues – 47% – mais même cela était bien inférieur aux 97,5% des affirmations non soutenues faites par l'agent de recherche en profondeur de Perplexity. «Nous avons été vraiment surpris de voir cela», explique Narayanan Venkit.

Openai a refusé de commenter les conclusions du journal. La perplexité a refusé de commenter le dossier, mais n'était pas d'accord avec la méthodologie de l'étude. En particulier, Perplexity a souligné que son outil permet aux utilisateurs de choisir un modèle d'IA spécifique – GPT-4, par exemple – qu'ils pensent le plus susceptible de donner la meilleure réponse, mais l'étude a utilisé un paramètre par défaut dans lequel l'outil de perplexité choisit le modèle d'IA lui-même. (Narayanan Venkit admet que l'équipe de recherche n'a pas exploré cette variable, mais il soutient que la plupart des utilisateurs ne sauraient pas quel modèle d'IA choisir de toute façon.) You.com, Microsoft et Google n'ont pas répondu à Nouveau scientifique's demande de commentaire.

«Il y a eu des plaintes fréquentes de la part des utilisateurs et de diverses études montrant que malgré les améliorations majeures, les systèmes d'IA peuvent produire des réponses unilatérales ou trompeuses», explique Felix Simon à l'Université d'Oxford. « En tant que tel, ce document fournit des preuves intéressantes sur ce problème qui, espérons-le, contribueront à stimuler les améliorations supplémentaires sur ce front. »

Cependant, tout le monde n'est pas aussi confiant dans les résultats, même s'ils sonnent avec des rapports anecdotiques sur le manque de fiabilité potentiel des outils. «Les résultats de l'article sont fortement subordonnés à l'annotation basée sur la LLM des données collectées», explique Aleksandra Urman à l'Université de Zurich, en Suisse. « Et il y a plusieurs problèmes avec cela. » Tous les résultats annotés à l'aide de l'IA doivent être vérifiés et validés par les humains – quelque chose que Urman inquiète que les chercheurs n'ont pas assez bien fait.

Elle a également des inquiétudes concernant la technique statistique utilisée pour vérifier que le nombre relativement faible de réponses annotées par l'homme s'aligne sur les réponses annotées par LLM. La technique utilisée, Pearson Corrélation, est «très non standard et particulière», explique Urman.

Malgré les différends sur la validité des résultats, Simon pense que plus de travail est nécessaire pour garantir que les utilisateurs interprètent correctement les réponses qu'ils obtiennent de ces outils. «L'amélioration de la précision, de la diversité et de l'approvisionnement des réponses générées par l'IA est nécessaire, d'autant plus que ces systèmes sont déployés plus largement dans divers domaines», dit-il.

Faire de l'auto-magnify des atomes révèle leurs fonctions d'onde quantique

Faire de l'auto-magnify des atomes révèle leurs fonctions d'onde quantique

New Scientist. Science news and long reads from expert journalists, covering developments in science, technology, health and the environment on the website and the magazine.

Pourquoi prendre soin de votre microbiome est crucial si vous voulez vivre à 100