En tant que développeurs AI, récoltez le contenu Wikipedia pour former leurs modèles, la forte augmentation du trafic automatisé fait augmenter les coûts pour l'organisme à but non lucratif qui gère l'Encyclopaedia populaire

Wikipedia est menacée par le boom de l'IA
Wikipedia est l'une des plus grandes ressources de connaissance jamais assemblées, contenant des contributions de crowdsourced de millions d'humains dans le monde – et il est confronté à une menace croissante des développeurs de l'intelligence artificielle.
La Fondation Wikimedia à but non lucratif, qui exploite Wikipedia, indique que depuis janvier 2024, il a vu une augmentation de 50% du trafic réseau demandant des téléchargements d'image et de vidéo à partir de son catalogue. Cette poussée provient principalement de programmes de gratte-parole de données automatisées, que les développeurs utilisent pour collecter des données de formation pour leurs modèles d'IA. Cette augmentation sans précédent du trafic Internet signifie que Wikimedia doit brûler plus d'argent pour servir les pages Wikipedia et autres contenus de ses centres de données loués.
«Il y a eu divers rapports sur d'autres sites de contenu qui souffrent de la même manière, mais quand quelqu'un aussi visible et aussi importante que Wikimedia rend public avec une telle déclaration, les gens y prêtent attention», explique Elena Simperl au King's College de Londres. «Le problème dont ils discutent est très, très inquiétant, et je parle en tant que scientifique qui travaille dans l'IA et dans l'IA responsable (recherche) depuis plus de 15 ans.»
La fondation indique que 65% de son trafic Internet le plus cher provient des bots de grattage de données. Ils demandent souvent des articles moins populaires, et ces requêtes doivent se rendre jusqu'à un centre de données central, au lieu de pouvoir utiliser les caches d'articles plus populaires stockés dans les centres de données locaux.
« Cette utilisation élevée entraîne également une perturbation constante de notre équipe de fiabilité de site, qui doit bloquer un trafic écrasant de ces robots avant de causer des problèmes à nos lecteurs », a écrit la Wikimedia Foundation dans son article de blog.
Birgit Müller, directeur du produit à la Wikimedia Foundation, a déclaré Nouveau scientifique L'organisation «cherche des moyens de gérer le trafic bot» et demande également aux utilisateurs commerciaux tels que les développeurs de l'IA «de soutenir directement la durabilité des projets Wikimedia».
«Une chose qui est souvent négligée pour le contenu public ou le contenu ouvertement sous licence est que le contenu est gratuit, mais l'infrastructure n'est pas gratuite», explique Simperl. «L'infrastructure coûte beaucoup d'argent, et ces ressources et les personnes nécessaires pour le gérer doivent provenir de quelque part.»
La Wikimedia Foundation a publié des projets de plans pour identifier les développeurs derrière les robots de grattage de données, dans le but de réduire le trafic automatisé des grabyers de 30% en termes de bande passante.
Wikimedia fait également face à une concurrence directe des chatbots d'IA qui peuvent répondre aux questions sur divers sujets – même si les réponses de l'IA ne sont pas toujours factuelles. Bien que les sites Web de Wikimedia n'aient pas vu une baisse du trafic directement attribuable aux développements d'IA récents, Müller s'est exprimé de la préoccupation de la façon dont les services d'IA qui «utilisent le contenu Wikimedia pour fournir des résumés et des réponses générés par la machine» ne fournissent généralement pas généralement de citations et de «voies de blocage pour accéder aux sources d'origine des sources d'origine».
Plusieurs études ont même trouvé des signes que le contenu généré par l'IA peut se glisser dans les entrées Wikipedia. Mais la Fondation Wikimedia n'est pas nécessairement opposée à cette technologie. Il utilise déjà des outils d'IA pour aider les éditeurs humains à détecter le vandalisme des sites Wikipedia, à prédire la qualité de l'article, à mesurer la lisibilité de l'article et à suggérer les modifications.


