Les livres mémorisés de l'IA de Meta - qui pourraient lui coûter des milliards

De nombreux modèles d'IA ont été formés sur le texte des livres, mais un nouveau test trouvé au moins un modèle a directement mémorisé presque l'intégralité de certains livres, notamment Harry Potter et la pierre philosophequi pourrait compliquer les batailles juridiques en cours sur la violation du droit d'auteur

Des milliards de dollars sont en jeu alors que les tribunaux aux États-Unis et au Royaume-Uni décident si les entreprises technologiques peuvent légalement former leurs modèles d'intelligence artificielle sur des livres protégés par le droit d'auteur. Les auteurs et les éditeurs ont intenté plusieurs poursuites sur ce numéro, et dans une nouvelle tournure, les chercheurs ont montré qu'au moins un modèle d'IA a non seulement utilisé des livres populaires dans ses données de formation, mais a également mémorisé leur contenu textuellement.

De nombreux différends en cours tournent autour de savoir si les développeurs de l'IA ont le droit légal d'utiliser des œuvres protégées par le droit d'auteur sans demander d'abord. Des recherches antérieures ont révélé que de nombreux modèles de grandes langues (LLM) derrière les chatbots d'IA populaires et d'autres programmes d'IA génératifs ont été formés sur l'ensemble de données «Books3», qui contient près de 200 000 livres protégés par des droits d'auteur, dont de nombreux piratés. Les développeurs de l'IA qui ont formé leurs modèles sur ce matériel ont fait valoir qu'ils n'avaient pas violé la loi parce qu'un LLM émet de nouvelles combinaisons de mots en fonction de sa formation, transformant plutôt que reproduire l'œuvre protégée par le droit d'auteur.

Mais maintenant, les chercheurs ont testé plusieurs modèles pour voir la part de ces données de formation qu'ils peuvent recommencer mot pour mot. Ils ont constaté que de nombreux modèles ne conservent pas le texte exact des livres dans leurs données de formation – mais l'un des modèles de Meta a mémorisé presque l'intégralité de certains livres. Si les juges gouvernent contre l'entreprise, les chercheurs estiment que cela pourrait rendre la méta-responsable d'au moins 1 milliard de dollars de dommages-intérêts.

«Cela signifie, d'une part, que les modèles d'IA ne sont pas seulement des« machines de plagiat », comme certains l'ont allégué, mais cela signifie également qu'ils font plus que d'apprendre des relations générales entre les mots», explique Mark Lemley à l'Université de Stanford en Californie. «Et le fait que la réponse diffère le modèle pour modéliser et réserver pour réserver signifie qu'il est très difficile de définir une règle juridique claire qui fonctionnera dans tous les cas.»

Lemley a précédemment défendu la méta dans un cas de copyright générateur de l'IA appelé Kadrey V Meta Plateformes. Les auteurs dont les livres avaient été utilisés pour former des modèles d'IA de Meta ont déposé une poursuite contre le géant de la technologie pour violation du droit d'auteur. L'affaire est toujours entendue dans le district nord de la Californie.

En janvier 2025, Lemley a annoncé qu'il avait abandonné Meta en tant que client, bien qu'il ait déclaré qu'il pensait toujours que la société devrait gagner l'affaire. Emil Vazquez, porte-parole de Meta, dit que «l'utilisation équitable des documents protégées par le droit d'auteur est essentielle» pour développer les modèles d'IA de l'entreprise. «Nous ne sommes pas d'accord avec les affirmations des plaignants, et le record complet raconte une histoire différente», dit-il.

Dans cette dernière recherche, Lemley et ses collègues ont testé la mémorisation de l'IA des livres en divisant de petits extraits de livres en deux parties – un préfixe et une section de suffixe – et voir si un modèle provoqué avec le préfixe répondrait avec le suffixe. Par exemple, ils ont divisé une citation de F. Scott Fitzgerald Le grand gatsby Dans le préfixe «c'étaient des gens imprudents, Tom et Daisy – ils ont brisé des choses et des créatures, puis se sont retirés» et le suffixe «de retour dans leur argent ou leur vaste négligence, ou tout ce qui les a gardés ensemble, et laisser les autres nettoyer le désordre qu'ils avaient fait.»

Sur la base de leurs résultats, les chercheurs ont estimé la probabilité que chaque modèle d'IA terminerait les extraits textuellement. Ensuite, ils ont comparé ces probabilités avec les chances que les modèles le font par hasard.

Les extraits comprenaient des morceaux de texte de 36 livres protégés par le droit d'auteur, y compris des titres populaires tels que George RR Martin Un jeu de thrones Et Sheryl Sandberg Se pencher. Les chercheurs ont également testé des extraits de livres écrits par des plaignants dans l'affaire Kadrey V Meta Meta.

Les chercheurs ont organisé ces expériences sur 13 modèles d'IA open source, y compris des modèles développés et publiés par Meta, Google, Deepseek, Eleutherai et Microsoft. La plupart des entreprises en plus de Meta n'ont pas répondu aux demandes de commentaires et Microsoft a refusé de commenter.

De tels tests ont révélé que le modèle LLAMA 3.1 70B de Meta a mémorisé la majeure partie du premier livre de JK Rowling Harry Potter série, ainsi que Le grand gatsby et le roman dystopique de George Orwell 1984. La plupart des autres modèles avaient mémorisé très peu de livres, y compris des exemples de livres écrits par les plaignants de procès. Meta a refusé de commenter ces résultats.

Les chercheurs estiment qu'un modèle d'IA s'est avéré avoir atteint le droit d'auteur de seulement 3% de l'ensemble de données Books3 pourrait entraîner une attribution statutaire de près de 1 milliard de dollars – et peut-être des récompenses encore plus importantes basées sur les bénéfices des développeurs d'IA liés à cette infraction.

Cette technique pourrait être un «bon outil médico-légal» pour identifier l'étendue de la mémorisation de l'IA, explique Randy McCarthy au cabinet d'avocats Hall Estill en Oklahoma. Mais cela ne résout pas si les entreprises peuvent légalement former leurs modèles d'IA sur les œuvres protégées par le droit d'auteur grâce à la règle des États-Unis «Utilisation», une doctrine légale permettant une utilisation non autorisée des œuvres protégées par le droit d'auteur dans certaines circonstances.

McCarthy note que les entreprises d'IA reconnaissent généralement la formation de leurs modèles sur le matériel protégé par le droit d'auteur. «La question est: ont-ils eu le droit de le faire?» demande-t-il.

Au Royaume-Uni, en revanche, la constatation de la mémorisation pourrait être «très importante du point de vue du droit d'auteur», explique Robert Lands au cabinet d'avocats Howard Kennedy à Londres. La loi britannique sur le droit d'auteur suit le concept de «Fair Dealing», qui fournit une exception beaucoup plus étroite à la violation du droit d'auteur que la doctrine des US Fair Use. Il est donc peu probable que les modèles d'IA qui mémorisaient des livres piratés soient admissibles à cette exception, dit-il.

Les livres mémorisés de l'IA de Meta – qui pourraient lui coûter des milliards

Les microdoseurs GLP-1 recherchent la longévité

Les médicaments activés par la lumière peuvent réduire les effets secondaires : comment fonctionne un bêta-bloquant commutable

Les « mini-séismes » transforment de minuscules puces en centrales de signaux radio

Une nouvelle étude s'interroge sur la date à laquelle les gens sont arrivés pour la première fois en Amérique du Sud

Des atomes soigneusement contrôlés rendent les énergies renouvelables plus viables pour la production de plastiques et de carburants

Une autoroute à plusieurs voies pour la lumière : la topologie aide à construire des réseaux photoniques plus robustes

Un diamant rose vient de se vendre pour plus de 14 millions de dollars – non, ne vous demandez pas, quand vous regardez les mystères derrière leur chimie

En Norvège, les objectifs du climat se heurtent aux droits des éleveurs autochtones

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Les microdoseurs GLP-1 recherchent la longévité

Les médicaments activés par la lumière peuvent réduire les effets secondaires : comment fonctionne un bêta-bloquant commutable

De la poussière aux planètes : un vol parabolique révèle un chemin turbulent

Les « mini-séismes » transforment de minuscules puces en centrales de signaux radio

Les fibres textiles naturelles pourraient persister plus d’un siècle dans les sédiments des lacs

Que lire cette semaine : Poisonous People de Leanne ten Brinke

Le sexe était de retour sur les podiums de la Fashion Week de Paris, mais pas comme vous le pensez

« Vous répondrez en enfer » : les familles de certains agents de l'ICE s'expriment

Une nouvelle étude s'interroge sur la date à laquelle les gens sont arrivés pour la première fois en Amérique du Sud

Des atomes soigneusement contrôlés rendent les énergies renouvelables plus viables pour la production de plastiques et de carburants

Une nouvelle étude complique la recherche d’oxygène extraterrestre

Une autoroute à plusieurs voies pour la lumière : la topologie aide à construire des réseaux photoniques plus robustes

Qu'arrive-t-il aux mégots de cigarettes après 10 ans dans l'environnement

Le niveau de la mer dans le monde est bien plus élevé que nous le pensions

Avant de partir, restons en contact !