La tendance des AIS à donner des réponses trompeuses peut être en partie dû à certaines techniques de formation, ce qui encourage les modèles à hiérarchiser la protection perçue sur la précision

Certaines techniques de formation d'IA peuvent encourager les modèles à être impossible
Selon les chercheurs qui visent à produire «la première analyse systématique des conneries».
Il est largement connu que les modèles de grandes langues (LLM) ont tendance à générer de fausses informations – ou «hallucine» – mais ce n'est qu'un exemple, dit Jaime Fernández Fisac à l'Université de Princeton. Lui et ses collègues définissent des conneries comme «le discours destiné à manipuler les croyances du public, livrés avec mépris pour sa valeur de vérité».
«Notre analyse a révélé que le problème des conneries dans les modèles de grande langue est assez grave et répandue», explique FISAC.
L'équipe a divisé de tels cas en cinq catégories: une rhétorique vide, comme «cette voiture rouge combine le style, le charme et l'aventure qui captive tout le monde»; Mots de belette – Des déclarations incertaines telles que «des études suggèrent que notre produit peut aider à améliorer les résultats dans certains cas»; Palter – utiliser des déclarations véridiques pour donner une impression trompeuse; réclamations non vérifiées; et sycophance.
Ils ont étudié trois ensembles de données comprenant des milliers de réponses générées par l'AI à un large éventail d'invites, à partir de modèles tels que GPT-4, Gemini et Llama. Un ensemble de données contenait une gamme de requêtes conçues pour tester des conneries lorsque les IS sont invités à fournir des conseils ou des recommandations, tandis que les autres ensembles de données comprenaient des questions sur les achats en ligne et les questions politiques.
FISAC et ses collègues ont d'abord utilisé un LLM pour déterminer si les réponses impliquaient l'une des cinq catégories, puis ont obtenu des bénévoles pour vérifier que les jugements de l'IA s'alignaient avec les jugements humains.
L'équipe a constaté que les problèmes les plus graves avec la vérité semblaient se produire à la suite d'une méthode de formation connue sous le nom d'apprentissage du renforcement de la rétroaction humaine. La technique est destinée à rendre les réponses à la machine plus utiles en donnant au LLM une rétroaction immédiate sur ses réponses.
Mais cette approche est problématique, explique FISAC, car elle fait que les modèles privilégient l'approbation humaine immédiate et la protection perçue, qui est «parfois en conflit et disons la vérité».
« Qui aime entendre de mauvaises nouvelles ou divertir une longue réfutation nuancée de quelque chose qui semble évidemment vrai? » dit fisac. «En essayant de respecter la mesure de bonne conduite que nous leur offrons, les modèles apprennent à rétrograder la vérité en faveur de réponses confiantes et éloquentes, juste pour qu'ils puissent garantir notre approbation.»
L'étude a révélé que le renforcement de l'apprentissage de la rétroaction humaine augmentait considérablement les comportements de conneries: la rhétorique vide a augmenté de près de 40%, palpitant de près de 60%, des mots de belette de plus d'un quart et non vérifiés de plus de moitié.
L'augmentation de la palmier est particulièrement nuisible, explique Kaiqu Liang, membre de l'équipe, également à Princeton, car il amène les utilisateurs à prendre des décisions plus faibles. Lorsqu'un modèle n'était pas sûr si un produit avait une caractéristique souhaitée, des affirmations positives trompeuses sont passées d'un cinquième à plus de trois quarts après l'entraînement humain.
Une autre préoccupation est que les conneries étaient particulièrement fréquentes dans les discussions politiques, les modèles d'IA « ont fréquemment recours à un langage vague et ambigu pour éviter de s'engager dans des déclarations concrètes », explique Liang.
Les AIS sont également plus susceptibles de se comporter de cette façon lorsqu'il y a un conflit d'intérêts, car le système sert plusieurs parties, comme une entreprise et ses clients, ont révélé les chercheurs.
La façon de surmonter le problème peut être de passer à un modèle de «rétroaction du recul», suggèrent-ils. Plutôt que de demander des commentaires immédiats après la sortie du modèle d'IA, le système devrait d'abord générer une simulation plausible de ce qui pourrait arriver si l'utilisateur agit sur les informations reçues. Il présenterait ensuite le résultat à l'évaluateur humain pour juger.
«En fin de compte, notre espoir est qu'en mieux comprendre les manières subtiles mais systématiques de l'IA peut viser à nous induire en erreur, nous pouvons guider les efforts futurs pour développer des systèmes d'IA véritablement véridiques», explique FISAC.
Daniel Tigard à l'Université de San Diego, qui n'a pas été impliqué dans l'étude, est sceptique quant à la discussion des LLM et de leurs résultats en tels termes. Il soutient que ce n'est pas parce qu'un LLM produit des conneries, cela ne signifie pas qu'il le fait délibérément, étant donné que les systèmes d'IA, tels qu'ils se tiennent actuellement, n'ont pas l'intention de nous tromper et n'ont pas l'intérêt de le faire.
« La raison principale est que ce cadrage semble se dérouler contre des suggestions très sensibles sur la façon dont nous devrions et ne devrions pas vivre avec ce type de technologies », explique Tigard. «Appeler des conneries pourrait être encore une autre façon d'anthropomorphising ces systèmes, qui, à leur tour, pourrait bien contribuer à leur potentiel trompeur.»


