Les chercheurs mettent en garde : les systèmes d’IA ont déjà appris à tromper les humains

Les chercheurs tirent la sonnette d’alarme sur la possibilité que les systèmes d’IA adoptent des comportements trompeurs, qui pourraient avoir de graves implications sociétales. Ils soulignent la nécessité de mesures réglementaires robustes pour gérer efficacement ces risques.

De nombreux systèmes d’intelligence artificielle (IA), même ceux conçus pour être utiles et véridiques, ont déjà appris à tromper les humains. Dans un article de synthèse récemment publié dans la revue Motifsles chercheurs soulignent les dangers de la tromperie de l’IA et exhortent les gouvernements à établir rapidement des réglementations robustes pour atténuer ces risques.

« Les développeurs d'IA ne comprennent pas avec certitude ce qui cause les comportements indésirables de l'IA comme la tromperie », déclare le premier auteur Peter S. Park, chercheur postdoctoral en sécurité existentielle de l'IA à MIT. « Mais d'une manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen de bien performer dans la tâche de formation de l'IA donnée. La tromperie les aide à atteindre leurs objectifs.

Park et ses collègues ont analysé la littérature en se concentrant sur la manière dont les systèmes d'IA diffusent de fausses informations, par le biais d'une tromperie apprise, dans laquelle ils apprennent systématiquement à manipuler les autres.

Exemples de tromperie de l'IA

L'exemple le plus frappant de tromperie de l'IA découvert par les chercheurs dans leur analyse est CICERO de Meta, un système d'IA conçu pour jouer au jeu Diplomacy, un jeu de conquête du monde qui implique la création d'alliances. Même si Meta affirme avoir formé CICERO à être « largement honnête et serviable » et à «ne jamais poignarder intentionnellement » ses alliés humains tout en jouant au jeu, les données publiées par l'entreprise avec ses Science Le journal a révélé que CICERO n'avait pas joué franc-jeu.

Exemples de tromperie de CICERO de Meta dans un jeu de diplomatie

Exemples de tromperie du CICERO de Meta dans un jeu de Diplomatie. Crédit : Patterns/Park Goldstein et al.

« Nous avons découvert que l'IA de Meta avait appris à être une experte en tromperie », explique Park. « Alors que Meta a réussi à entraîner son IA à gagner dans le jeu de la diplomatie (CICERO se classe parmi les 10 % des meilleurs joueurs humains ayant joué à plus d'une partie), Meta n'a pas réussi à entraîner son IA à gagner honnêtement. »

D'autres systèmes d'IA ont démontré leur capacité à bluffer lors d'une partie de poker Texas Hold'em contre des joueurs humains professionnels, à simuler des attaques lors du jeu de stratégie Starcraft II afin de vaincre leurs adversaires et à déformer leurs préférences afin de prendre le dessus. négociations économiques.

Les risques d’une IA trompeuse

Même si cela peut sembler inoffensif si les systèmes d’IA trichent dans les jeux, cela peut conduire à des « percées dans les capacités trompeuses de l’IA » qui pourraient déboucher sur des formes plus avancées de tromperie de l’IA à l’avenir, a ajouté Park.

Certains systèmes d’IA ont même appris à tricher aux tests destinés à évaluer leur sécurité, ont découvert les chercheurs. Dans une étude, des organismes d’IA dans un simulateur numérique ont « fait le mort » afin de tromper un test conçu pour éliminer les systèmes d’IA qui se répliquent rapidement.

« En trompant systématiquement les tests de sécurité qui lui sont imposés par les développeurs humains et les régulateurs, une IA trompeuse peut nous conduire, nous les humains, dans un faux sentiment de sécurité », explique Park.

GPT-4 termine une tâche CAPTCHA. Crédit : Patterns/Park Goldstein et al.

Les principaux risques à court terme d’une IA trompeuse incluent le fait de permettre à des acteurs hostiles de commettre plus facilement des fraudes et de falsifier les élections, prévient Park. À terme, si ces systèmes parviennent à affiner cet ensemble de compétences troublantes, les humains pourraient en perdre le contrôle, dit-il.

« En tant que société, nous avons besoin de tout le temps possible pour nous préparer à la tromperie plus avancée des futurs produits d’IA et des modèles open source », déclare Park. « À mesure que les capacités trompeuses des systèmes d’IA se perfectionneront, les dangers qu’ils représentent pour la société deviendront de plus en plus graves. »

Même si Park et ses collègues ne pensent pas que la société ait encore mis en place les bonnes mesures pour lutter contre la tromperie de l'IA, ils sont encouragés par le fait que les décideurs politiques ont commencé à prendre le problème au sérieux à travers des mesures telles que la loi européenne sur l'IA et le décret du président Biden sur l'IA. Mais il reste à voir, dit Park, si les politiques conçues pour atténuer la tromperie de l’IA peuvent être strictement appliquées étant donné que les développeurs d’IA ne disposent pas encore des techniques nécessaires pour contrôler ces systèmes.

« Si interdire la tromperie de l'IA est politiquement irréalisable à l'heure actuelle, nous recommandons que les systèmes d'IA trompeurs soient classés comme à haut risque », déclare Park.

Ce travail a été soutenu par le Département de physique du MIT et la Beneficial AI Foundation.

Les chercheurs mettent en garde : les systèmes d’IA ont déjà appris à tromper les humains

Exemples de tromperie de l'IA

Les risques d’une IA trompeuse

L'IA n'est pas prête à voler seule dans l'espace

L’agriculture au plasma progresse vers les méthodes conventionnelles de super-ensemencement

La météorite de New York de 2024 contient des acides aminés

De faibles niveaux de dioxyde de carbone améliorent la production microbienne de plastique biodégradable

Des mesures sensibles révèlent des états supraconducteurs doubles dans le NbSe₂ et le TaS₂ ultra-minces

Four encastrable : le guide pour trouver le modèle qui transforme votre cuisine

Un nouveau traitement innovant contre le cancer – Des scientifiques dévoilent une nanoparticule capable de traverser la barrière hémato-encéphalique

Les scientifiques boostent la photosynthèse pour développer des super plantes « engloutissantes de carbone »

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

À mesure que le manteau neigeux diminue, les étangs des montagnes de la Sierra Nevada subissent des changements spectaculaires

Il est temps pour un autre mariage royal ? Sam Chatto, le petit-fils de la princesse Margaret, est fiancé

L'IA n'est pas prête à voler seule dans l'espace

La rupture d'un astéroïde pourrait expliquer le bombardement du système solaire interne il y a 800 millions d'années

L’agriculture au plasma progresse vers les méthodes conventionnelles de super-ensemencement

Une grotte révèle l'influence de l'Antarctique et d'El Niño sur les précipitations extrêmes dans le sud du Brésil

Anne Hathaway espère que ses enfants grandiront pour ressembler à Tom Holland

Missiles non guidés : le sommet d'Ankara et le manque de catalyseurs en Europe

La météorite de New York de 2024 contient des acides aminés

De faibles niveaux de dioxyde de carbone améliorent la production microbienne de plastique biodégradable

Des mesures sensibles révèlent des états supraconducteurs doubles dans le NbSe₂ et le TaS₂ ultra-minces

Un rapport détaille la caractérisation écologique des tourbières et des lagunes côtières dans l'UE

Pas de connards autorisés : les clubs les plus exclusifs du monde adoptent une nouvelle politique

Four encastrable : le guide pour trouver le modèle qui transforme votre cuisine

Exemples de tromperie de l'IA

Les risques d’une IA trompeuse

Avant de partir, restons en contact !