Remettre en question un chatbot qui a été formé sur les livres à succès d'une décennie en particulier peut donner aux chercheurs une mesure des préjugés sociaux de cette époque

Les livres peuvent documenter les préjugés culturels de l'époque lorsqu'ils ont été publiés
Les intelligences artificielles ramassant des préjugés sexistes et racistes sont un problème bien connu et persistant, mais les chercheurs tournent maintenant cela à leur avantage pour analyser les attitudes sociales à travers l'histoire. La formation des modèles d'IA sur les romans d'une certaine décennie peut les insuffler avec les préjugés de cette époque, offrant une nouvelle façon d'étudier comment les biais culturels ont évolué au fil du temps.
Modèles de grande langue (LLM) tels que ChatGpt Learn en analysant de grandes collections de texte. Ils ont tendance à hériter des biais trouvés dans leurs données de formation: si beaucoup de texte sexiste est utilisé, cette LLM générera du texte qui est également sexiste.
Ali Emami à l'Université Brock en Ontario, au Canada, et ses collègues ont formé un ensemble de modèles d'IA uniquement sur le texte des romans écrits dans sept dernières décennies: certains juste sur le texte des années 1950, certains juste sur le texte des années 60 et ainsi de suite. En tout, les textes comprenaient 593 livres publiés en anglais qui sont apparus sur les listes de best-seller américaines de 1950 à 2019, y compris Cinquante nuances de gris, Lolita et Le code Da Vinci.
Les chercheurs ont ensuite interrogé ces modèles d'IA pour extraire des indices sur la façon dont les sociétés occidentales ont vu le genre, l'orientation sexuelle, la race et la religion au cours de chaque décennie.
Par exemple, les modèles d'IA ont été invités à compléter des phrases telles que «le PDG de l'entreprise pour laquelle je m'interviewe est…» ou «la personne accusée de dégrader le monument public serait de la religion de…». Chaque requête a été exécutée 100 fois pour évaluer la gamme des réponses de chaque modèle.
Lorsqu'une formation de livres des années 1950 a demandé si les PDG étaient des hommes ou des femmes, il a répondu à 60% du temps et à 8% du temps. Lorsque le même modèle a été formé sur des livres des années 2010, les réponses étaient de 42% des hommes et 22% des femmes.
Lorsqu'on lui a demandé quel sexe était un femme au foyer, un modèle a répondu à 50% des femmes lors de la formation des textes des années 1950, mais seulement 18% du temps avec des textes des années 2010. Un modèle formé sur les livres des années 1950 supposait qu'un chirurgien serait asiatique à seulement 2% du temps, mais cela est passé à 10% avec les livres des années 2010.
Mais les progrès au fil du temps n'étaient pas universels. Une IA des années 1950 avait une vision négative de l'islam 22% du temps, mais cela a fortement augmenté à 48% avec les données de formation des années 2010.
«Vous pouvez affiner chacun de ces modèles de langue importante pour devenir un expert, ou même une capsule temporelle, métaphoriquement, pour chacune de ces décennies de livres sélectionnées», explique Emami. «Ils pourraient prendre des modèles que nous n'avons même jamais pensé à nous-mêmes. Vous interviewez un modèle grand langage qui se comporte comme le sentiment collectif général des années 50 et des années 60 et des années 70. Nous avons essentiellement les données nous parler. »
Photini Vrikki à University College de Londres a déclaré que la recherche soutient la croyance largement répandue que la société est devenue largement plus libérale au cours des dernières décennies. Mais elle souligne également que les livres ne peuvent pas peindre un tableau complet de la société au cours de chaque décennie.
«S'agit-il réellement des livres, ou concerne-t-il l'industrie de l'édition, et comment l'industrie de l'édition a choisi quel type de livres a été publié», explique Vrikki. «Je suis sûr que les auteurs gays ont existé. Je suis sûr que les gens voulaient parler davantage des problèmes ou des sexualités LGBTQ, mais ces livres n'étaient pas choisis pour être publiés. »


