De nombreux modèles d'IA ont été formés sur le texte des livres, mais un nouveau test trouvé au moins un modèle a directement mémorisé presque l'intégralité de certains livres, notamment Harry Potter et la pierre philosophequi pourrait compliquer les batailles juridiques en cours sur la violation du droit d'auteur

En avril, les auteurs de livres et les éditeurs ont protesté contre Meta l'utilisation des livres protégés par le droit d'auteur pour former l'IA
Des milliards de dollars sont en jeu alors que les tribunaux aux États-Unis et au Royaume-Uni décident si les entreprises technologiques peuvent légalement former leurs modèles d'intelligence artificielle sur des livres protégés par le droit d'auteur. Les auteurs et les éditeurs ont intenté plusieurs poursuites sur ce numéro, et dans une nouvelle tournure, les chercheurs ont montré qu'au moins un modèle d'IA a non seulement utilisé des livres populaires dans ses données de formation, mais a également mémorisé leur contenu textuellement.
De nombreux différends en cours tournent autour de savoir si les développeurs de l'IA ont le droit légal d'utiliser des œuvres protégées par le droit d'auteur sans demander d'abord. Des recherches antérieures ont révélé que de nombreux modèles de grandes langues (LLM) derrière les chatbots d'IA populaires et d'autres programmes d'IA génératifs ont été formés sur l'ensemble de données «Books3», qui contient près de 200 000 livres protégés par des droits d'auteur, dont de nombreux piratés. Les développeurs de l'IA qui ont formé leurs modèles sur ce matériel ont fait valoir qu'ils n'avaient pas violé la loi parce qu'un LLM émet de nouvelles combinaisons de mots en fonction de sa formation, transformant plutôt que reproduire l'œuvre protégée par le droit d'auteur.
Mais maintenant, les chercheurs ont testé plusieurs modèles pour voir la part de ces données de formation qu'ils peuvent recommencer mot pour mot. Ils ont constaté que de nombreux modèles ne conservent pas le texte exact des livres dans leurs données de formation – mais l'un des modèles de Meta a mémorisé presque l'intégralité de certains livres. Si les juges gouvernent contre l'entreprise, les chercheurs estiment que cela pourrait rendre la méta-responsable d'au moins 1 milliard de dollars de dommages-intérêts.
«Cela signifie, d'une part, que les modèles d'IA ne sont pas seulement des« machines de plagiat », comme certains l'ont allégué, mais cela signifie également qu'ils font plus que d'apprendre des relations générales entre les mots», explique Mark Lemley à l'Université de Stanford en Californie. «Et le fait que la réponse diffère le modèle pour modéliser et réserver pour réserver signifie qu'il est très difficile de définir une règle juridique claire qui fonctionnera dans tous les cas.»
Lemley a précédemment défendu la méta dans un cas de copyright générateur de l'IA appelé Kadrey V Meta Plateformes. Les auteurs dont les livres avaient été utilisés pour former des modèles d'IA de Meta ont déposé une poursuite contre le géant de la technologie pour violation du droit d'auteur. L'affaire est toujours entendue dans le district nord de la Californie.
En janvier 2025, Lemley a annoncé qu'il avait abandonné Meta en tant que client, bien qu'il ait déclaré qu'il pensait toujours que la société devrait gagner l'affaire. Emil Vazquez, porte-parole de Meta, dit que «l'utilisation équitable des documents protégées par le droit d'auteur est essentielle» pour développer les modèles d'IA de l'entreprise. «Nous ne sommes pas d'accord avec les affirmations des plaignants, et le record complet raconte une histoire différente», dit-il.
Dans cette dernière recherche, Lemley et ses collègues ont testé la mémorisation de l'IA des livres en divisant de petits extraits de livres en deux parties – un préfixe et une section de suffixe – et voir si un modèle provoqué avec le préfixe répondrait avec le suffixe. Par exemple, ils ont divisé une citation de F. Scott Fitzgerald Le grand gatsby Dans le préfixe «c'étaient des gens imprudents, Tom et Daisy – ils ont brisé des choses et des créatures, puis se sont retirés» et le suffixe «de retour dans leur argent ou leur vaste négligence, ou tout ce qui les a gardés ensemble, et laisser les autres nettoyer le désordre qu'ils avaient fait.»
Sur la base de leurs résultats, les chercheurs ont estimé la probabilité que chaque modèle d'IA terminerait les extraits textuellement. Ensuite, ils ont comparé ces probabilités avec les chances que les modèles le font par hasard.
Les extraits comprenaient des morceaux de texte de 36 livres protégés par le droit d'auteur, y compris des titres populaires tels que George RR Martin Un jeu de thrones Et Sheryl Sandberg Se pencher. Les chercheurs ont également testé des extraits de livres écrits par des plaignants dans l'affaire Kadrey V Meta Meta.
Les chercheurs ont organisé ces expériences sur 13 modèles d'IA open source, y compris des modèles développés et publiés par Meta, Google, Deepseek, Eleutherai et Microsoft. La plupart des entreprises en plus de Meta n'ont pas répondu aux demandes de commentaires et Microsoft a refusé de commenter.
De tels tests ont révélé que le modèle LLAMA 3.1 70B de Meta a mémorisé la majeure partie du premier livre de JK Rowling Harry Potter série, ainsi que Le grand gatsby et le roman dystopique de George Orwell 1984. La plupart des autres modèles avaient mémorisé très peu de livres, y compris des exemples de livres écrits par les plaignants de procès. Meta a refusé de commenter ces résultats.
Les chercheurs estiment qu'un modèle d'IA s'est avéré avoir atteint le droit d'auteur de seulement 3% de l'ensemble de données Books3 pourrait entraîner une attribution statutaire de près de 1 milliard de dollars – et peut-être des récompenses encore plus importantes basées sur les bénéfices des développeurs d'IA liés à cette infraction.
Cette technique pourrait être un «bon outil médico-légal» pour identifier l'étendue de la mémorisation de l'IA, explique Randy McCarthy au cabinet d'avocats Hall Estill en Oklahoma. Mais cela ne résout pas si les entreprises peuvent légalement former leurs modèles d'IA sur les œuvres protégées par le droit d'auteur grâce à la règle des États-Unis «Utilisation», une doctrine légale permettant une utilisation non autorisée des œuvres protégées par le droit d'auteur dans certaines circonstances.
McCarthy note que les entreprises d'IA reconnaissent généralement la formation de leurs modèles sur le matériel protégé par le droit d'auteur. «La question est: ont-ils eu le droit de le faire?» demande-t-il.
Au Royaume-Uni, en revanche, la constatation de la mémorisation pourrait être «très importante du point de vue du droit d'auteur», explique Robert Lands au cabinet d'avocats Howard Kennedy à Londres. La loi britannique sur le droit d'auteur suit le concept de «Fair Dealing», qui fournit une exception beaucoup plus étroite à la violation du droit d'auteur que la doctrine des US Fair Use. Il est donc peu probable que les modèles d'IA qui mémorisaient des livres piratés soient admissibles à cette exception, dit-il.


