La façon dont nous entraînons les AIS les rend plus susceptibles de jaillir Bull

La tendance des AIS à donner des réponses trompeuses peut être en partie dû à certaines techniques de formation, ce qui encourage les modèles à hiérarchiser la protection perçue sur la précision

Selon les chercheurs qui visent à produire «la première analyse systématique des conneries».

Il est largement connu que les modèles de grandes langues (LLM) ont tendance à générer de fausses informations – ou «hallucine» – mais ce n'est qu'un exemple, dit Jaime Fernández Fisac à l'Université de Princeton. Lui et ses collègues définissent des conneries comme «le discours destiné à manipuler les croyances du public, livrés avec mépris pour sa valeur de vérité».

«Notre analyse a révélé que le problème des conneries dans les modèles de grande langue est assez grave et répandue», explique FISAC.

L'équipe a divisé de tels cas en cinq catégories: une rhétorique vide, comme «cette voiture rouge combine le style, le charme et l'aventure qui captive tout le monde»; Mots de belette – Des déclarations incertaines telles que «des études suggèrent que notre produit peut aider à améliorer les résultats dans certains cas»; Palter – utiliser des déclarations véridiques pour donner une impression trompeuse; réclamations non vérifiées; et sycophance.

Ils ont étudié trois ensembles de données comprenant des milliers de réponses générées par l'AI à un large éventail d'invites, à partir de modèles tels que GPT-4, Gemini et Llama. Un ensemble de données contenait une gamme de requêtes conçues pour tester des conneries lorsque les IS sont invités à fournir des conseils ou des recommandations, tandis que les autres ensembles de données comprenaient des questions sur les achats en ligne et les questions politiques.

FISAC et ses collègues ont d'abord utilisé un LLM pour déterminer si les réponses impliquaient l'une des cinq catégories, puis ont obtenu des bénévoles pour vérifier que les jugements de l'IA s'alignaient avec les jugements humains.

L'équipe a constaté que les problèmes les plus graves avec la vérité semblaient se produire à la suite d'une méthode de formation connue sous le nom d'apprentissage du renforcement de la rétroaction humaine. La technique est destinée à rendre les réponses à la machine plus utiles en donnant au LLM une rétroaction immédiate sur ses réponses.

Mais cette approche est problématique, explique FISAC, car elle fait que les modèles privilégient l'approbation humaine immédiate et la protection perçue, qui est «parfois en conflit et disons la vérité».

« Qui aime entendre de mauvaises nouvelles ou divertir une longue réfutation nuancée de quelque chose qui semble évidemment vrai? » dit fisac. «En essayant de respecter la mesure de bonne conduite que nous leur offrons, les modèles apprennent à rétrograder la vérité en faveur de réponses confiantes et éloquentes, juste pour qu'ils puissent garantir notre approbation.»

L'étude a révélé que le renforcement de l'apprentissage de la rétroaction humaine augmentait considérablement les comportements de conneries: la rhétorique vide a augmenté de près de 40%, palpitant de près de 60%, des mots de belette de plus d'un quart et non vérifiés de plus de moitié.

L'augmentation de la palmier est particulièrement nuisible, explique Kaiqu Liang, membre de l'équipe, également à Princeton, car il amène les utilisateurs à prendre des décisions plus faibles. Lorsqu'un modèle n'était pas sûr si un produit avait une caractéristique souhaitée, des affirmations positives trompeuses sont passées d'un cinquième à plus de trois quarts après l'entraînement humain.

Une autre préoccupation est que les conneries étaient particulièrement fréquentes dans les discussions politiques, les modèles d'IA « ont fréquemment recours à un langage vague et ambigu pour éviter de s'engager dans des déclarations concrètes », explique Liang.

Les AIS sont également plus susceptibles de se comporter de cette façon lorsqu'il y a un conflit d'intérêts, car le système sert plusieurs parties, comme une entreprise et ses clients, ont révélé les chercheurs.

La façon de surmonter le problème peut être de passer à un modèle de «rétroaction du recul», suggèrent-ils. Plutôt que de demander des commentaires immédiats après la sortie du modèle d'IA, le système devrait d'abord générer une simulation plausible de ce qui pourrait arriver si l'utilisateur agit sur les informations reçues. Il présenterait ensuite le résultat à l'évaluateur humain pour juger.

«En fin de compte, notre espoir est qu'en mieux comprendre les manières subtiles mais systématiques de l'IA peut viser à nous induire en erreur, nous pouvons guider les efforts futurs pour développer des systèmes d'IA véritablement véridiques», explique FISAC.

Daniel Tigard à l'Université de San Diego, qui n'a pas été impliqué dans l'étude, est sceptique quant à la discussion des LLM et de leurs résultats en tels termes. Il soutient que ce n'est pas parce qu'un LLM produit des conneries, cela ne signifie pas qu'il le fait délibérément, étant donné que les systèmes d'IA, tels qu'ils se tiennent actuellement, n'ont pas l'intention de nous tromper et n'ont pas l'intérêt de le faire.

« La raison principale est que ce cadrage semble se dérouler contre des suggestions très sensibles sur la façon dont nous devrions et ne devrions pas vivre avec ce type de technologies », explique Tigard. «Appeler des conneries pourrait être encore une autre façon d'anthropomorphising ces systèmes, qui, à leur tour, pourrait bien contribuer à leur potentiel trompeur.»

La façon dont nous entraînons les AIS les rend plus susceptibles de jaillir Bull

Les champignons de la pourriture blanche semblent prometteurs pour réduire les résidus pharmaceutiques dans les biosolides

Claude AI : Pourquoi y a-t-il autant de pannes d'internet ?

Pour créer une « Terre boule de neige », la science-fiction avance rapidement. La géologie est beaucoup plus lente

La méthode composite polymère coupe les micro-vides pour augmenter la conductivité

Les ondes de spin térahertz peuvent être converties en signaux informatiques, selon une étude

Un mystère d’électricité statique refait surface

L'analyse de l'ADN révèle ce qui a vraiment tué l'armée de Napoléon en 1812

Pourrions-nous obtenir une effrayante quantique même sans enchevêtrement?

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Les champignons de la pourriture blanche semblent prometteurs pour réduire les résidus pharmaceutiques dans les biosolides

Un mystère vieux de 60 ans sur la magnétosphère lunaire est enfin résolu

La crème solaire produit des radicaux libres persistants lorsqu'elle est exposée à la lumière, selon une étude

Claude AI : Pourquoi y a-t-il autant de pannes d'internet ?

La signification cachée du vieil Hollywood dans la robe Chanel de Jessie Buckley aux Oscars 2026

L'IA George Washington de Glenn Beck est un fantasme sexuel de droite

Pour créer une « Terre boule de neige », la science-fiction avance rapidement. La géologie est beaucoup plus lente

La méthode composite polymère coupe les micro-vides pour augmenter la conductivité

JWST cartographie le CO₂ d'Europe au-delà de Tara Regio, faisant allusion à un échange souterrain

Les ondes de spin térahertz peuvent être converties en signaux informatiques, selon une étude

Les politiques climatiques peuvent réduire les émissions liées à la croissance économique dans les pays riches

Une visite des bureaux cinématographiques remplis par Frank-Gehry du Département M à Hollywood

Un mystère d’électricité statique refait surface

Thérapie alpha ciblée : un composé prometteur pour des soins unifiés contre le cancer

Avant de partir, restons en contact !