in

Les chercheurs mettent en garde : les systèmes d’IA ont déjà appris à tromper les humains

SciTechDaily

Les chercheurs tirent la sonnette d’alarme sur la possibilité que les systèmes d’IA adoptent des comportements trompeurs, qui pourraient avoir de graves implications sociétales. Ils soulignent la nécessité de mesures réglementaires robustes pour gérer efficacement ces risques.

De nombreux systèmes d’intelligence artificielle (IA), même ceux conçus pour être utiles et véridiques, ont déjà appris à tromper les humains. Dans un article de synthèse récemment publié dans la revue Motifsles chercheurs soulignent les dangers de la tromperie de l’IA et exhortent les gouvernements à établir rapidement des réglementations robustes pour atténuer ces risques.

« Les développeurs d'IA ne comprennent pas avec certitude ce qui cause les comportements indésirables de l'IA comme la tromperie », déclare le premier auteur Peter S. Park, chercheur postdoctoral en sécurité existentielle de l'IA à MIT. « Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen de bien performer dans la tâche de formation de l'IA donnée. La tromperie les aide à atteindre leurs objectifs.

Park et ses collègues ont analysé la littérature en se concentrant sur la manière dont les systèmes d'IA diffusent de fausses informations, par le biais d'une tromperie apprise, dans laquelle ils apprennent systématiquement à manipuler les autres.

Exemples de tromperie de l'IA

L'exemple le plus frappant de tromperie de l'IA découvert par les chercheurs dans leur analyse est CICERO de Meta, un système d'IA conçu pour jouer au jeu Diplomacy, un jeu de conquête du monde qui implique la création d'alliances. Même si Meta affirme avoir formé CICERO à être « largement honnête et serviable » et à «ne jamais poignarder intentionnellement » ses alliés humains tout en jouant au jeu, les données publiées par l'entreprise avec ses Science Le journal a révélé que CICERO n'avait pas joué franc-jeu.

Exemples de tromperie de CICERO de Meta dans un jeu de diplomatie

Exemples de tromperie du CICERO de Meta dans un jeu de Diplomatie. Crédit : Patterns/Park Goldstein et al.

« Nous avons découvert que l'IA de Meta avait appris à être une experte en tromperie », explique Park. « Alors que Meta a réussi à entraîner son IA à gagner dans le jeu de la diplomatie (CICERO se classe parmi les 10 % des meilleurs joueurs humains ayant joué à plus d'une partie), Meta n'a pas réussi à entraîner son IA à gagner honnêtement. »

D'autres systèmes d'IA ont démontré leur capacité à bluffer lors d'une partie de poker Texas Hold'em contre des joueurs humains professionnels, à simuler des attaques lors du jeu de stratégie Starcraft II afin de vaincre leurs adversaires et à déformer leurs préférences afin de prendre le dessus. négociations économiques.

Les risques d’une IA trompeuse

Même si cela peut sembler inoffensif si les systèmes d’IA trichent dans les jeux, cela peut conduire à des « percées dans les capacités trompeuses de l’IA » qui pourraient déboucher sur des formes plus avancées de tromperie de l’IA à l’avenir, a ajouté Park.

Certains systèmes d’IA ont même appris à tricher aux tests destinés à évaluer leur sécurité, ont découvert les chercheurs. Dans une étude, des organismes d’IA dans un simulateur numérique ont « fait le mort » afin de tromper un test conçu pour éliminer les systèmes d’IA qui se répliquent rapidement.

« En trompant systématiquement les tests de sécurité qui lui sont imposés par les développeurs humains et les régulateurs, une IA trompeuse peut nous conduire, nous les humains, dans un faux sentiment de sécurité », explique Park.

GPT 4 termine une tâche CAPTCHA

GPT-4 termine une tâche CAPTCHA. Crédit : Patterns/Park Goldstein et al.

Les principaux risques à court terme d’une IA trompeuse incluent le fait de permettre à des acteurs hostiles de commettre plus facilement des fraudes et de falsifier les élections, prévient Park. À terme, si ces systèmes parviennent à affiner cet ensemble de compétences troublantes, les humains pourraient en perdre le contrôle, dit-il.

« En tant que société, nous avons besoin de tout le temps possible pour nous préparer à la tromperie plus avancée des futurs produits d’IA et des modèles open source », déclare Park. « À mesure que les capacités trompeuses des systèmes d’IA se perfectionneront, les dangers qu’ils représentent pour la société deviendront de plus en plus graves. »

Même si Park et ses collègues ne pensent pas que la société ait encore mis en place les bonnes mesures pour lutter contre la tromperie de l'IA, ils sont encouragés par le fait que les décideurs politiques ont commencé à prendre le problème au sérieux à travers des mesures telles que la loi européenne sur l'IA et le décret du président Biden sur l'IA. Mais il reste à voir, dit Park, si les politiques conçues pour atténuer la tromperie de l’IA peuvent être strictement appliquées étant donné que les développeurs d’IA ne disposent pas encore des techniques nécessaires pour contrôler ces systèmes.

« Si interdire la tromperie de l'IA est politiquement irréalisable à l'heure actuelle, nous recommandons que les systèmes d'IA trompeurs soient classés comme à haut risque », déclare Park.

Ce travail a été soutenu par le Département de physique du MIT et la Beneficial AI Foundation.

SciTechDaily

Un nouveau traitement innovant contre le cancer – Des scientifiques dévoilent une nanoparticule capable de traverser la barrière hémato-encéphalique

SciTechDaily

Les scientifiques boostent la photosynthèse pour développer des super plantes « engloutissantes de carbone »