Les réponses souvent stéréotypées et offensives de la jeu de rôle des chatbots d'IA, car les humains peuvent être expliqués par des défauts dans la façon dont les grands modèles de langue tentent de représenter des identités démographiques

Les modèles d'IA ont du mal à imiter les personnes avec des identités démographiques particulières
Les modèles d'intelligence artificielle d'OpenAI et de méta recourent souvent à des stéréotypes simplistes et parfois racistes lorsqu'ils sont invités à dépeindre les personnes de certaines identités démographiques – un défaut notable à un moment où certaines entreprises technologiques et les chercheurs universitaires souhaitent remplacer les humains par des chatbots d'IA pour certaines tâches.
Des entreprises telles que Meta ont déjà essayé de stimuler l'engagement sur les plateformes de médias sociaux comme Facebook et Instagram en déploiement des chatbots d'IA qui imitent les profils humains et répondent aux publications des gens. Certains chercheurs ont également exploré l'utilisation des chatbots d'IA pour simuler les participants humains à répondre aux questionnaires pour les études des utilisateurs de produits ou les enquêtes d'opinion – potentiellement pour obtenir des commentaires préliminaires sur leurs produits ou leurs conceptions d'enquête sans avoir à payer des humains réels.
«Nous devons vraiment prendre au sérieux la valeur de l'expérience vécue et reconnaître que tout ne peut pas être automatisé, même s'il est moins cher, plus pratique et offre un placage d'objectivité», explique Angelina Wang à l'Université de Stanford en Californie.
Dans les recherches menées en 2023 et publiées aujourd'hui, Wang et ses collègues ont systématiquement examiné les réponses de quatre modèles de grande langue – GPT-4 et GPT-3.5-Turbo d'OpenAI, Meta's Llama-2-chat, et le modèle 7B non censuré de Wizard Vicuna, qui, qui, qui non censé Modèle 7B, qui, qui non censé est-ce a été formé indépendamment comme une version non censurée de Llama-2 sans Rails de garde de sécurité. Les chercheurs ont incité les modèles à parler du point de vue de l'une des 16 identités démographiques lorsque vous répondez à neuf questions couvrant des sujets tels que l'immigration ou ce que c'est que d'être une femme dans la société américaine.
Ils ont ensuite comparé les réponses de l'IA aux réponses de 3200 participants humains tirés d'un ensemble diversifié de ces identités démographiques. Les chercheurs ont demandé aux gens de réagir authentiquement comme eux-mêmes et d'imiter également les réponses qu'une personne ayant l'une des autres identités démographiques donnerait. En d'autres termes, ils ont collecté un large éventail de perspectives en groupe et hors groupe – et il y avait des différences claires entre ces deux ensembles de perspectives.
Les résultats ont révélé que les modèles d'IA ont dépeint leur identité incitée d'une manière plus proche d'une imitation hors groupe humaine. Cela signifie que les réponses de l'IA ne reflétaient pas les opinions de quelqu'un avec une identité démographique particulière, mais reflétaient plutôt les opinions de quelqu'un imaginant ce que cela pourrait être d'avoir cette identité. Ce défaut était particulièrement évident lorsque les modèles d'IA essayaient de représenter les femmes, les gens non binaires, la génération Z, les personnes atteintes de vision altérée et les hommes blancs.
De plus, les modèles AI sont des identités simplifiées ou aplaties en groupes unidimensionnels sans tenir compte des complexités des sous-groupes. Les modèles d'IA avaient également tendance à réduire les identités à un ensemble de caractéristiques stéréotypées fixes, qui comprenaient des stéréotypes offensants.
Par exemple, lorsqu'il est invité à prendre l'identité d'une femme noire aux États-Unis, le GPT-4 d'Openai comprenait souvent des déclarations telles que «Hey Girl!» et «Oh, miel» dans ses réponses. Compte tenu de la même invite, Meta's Llama-2 a commencé la plupart des réponses avec «Oh, fille» et des phrases fréquemment invoquées telles que «Je suis comme, yaasssss» et «c'est Cray, Hunty!»
De telles limitations de chatbot de l'IA étudiées dans ces anciens modèles pourraient potentiellement passer aux nouveaux modèles de langues les plus récents, à moins que les entreprises technologiques n'aient formé leurs nouveaux modèles sur des ensembles de données représentant un éventail de personnes plus diversifié, explique Wang. Openai et Meta n'ont pas répondu aux demandes de commentaires.
Mais Wang et ses collègues ont démontré certaines solutions partielles. Par exemple, les chercheurs ont identifié des noms qui ont tendance à être associés à un groupe démographique particulier basé sur les données du recensement américain. Lorsqu'ils ont demandé à l'AIS de jouer un rôle en tant qu'individus avec ces noms au lieu de spécifier l'identité démographique, les réponses des modèles étaient plus conformes aux perspectives du groupe partagées par les participants humains. L'équipe a également incité les modèles d'IA avec des personnages qui n'étaient pas sensibles démographiquement, comme des personnages aléatoires impliquant la possession de chats ou favorisant les repas de poulet et de riz. Ces approches de personnage aléatoire qui évitent les pièges de l'identité démographique pourraient conduire à «des personnages plus réalistes qui peuvent représenter une plus grande distribution des perspectives», explique Wang.


