La montée du contenu généré par l'IA depuis 2022 risque de rendre impossible de savoir quand les informations ont été produites uniquement par les humains, ce qui pourrait être un problème pour les futurs IA et les historiens

Wikipedia montre déjà des signes d'une énorme entrée d'IA
L'arrivée des chatbots d'IA marque une ligne de division historique, après quoi le matériel en ligne ne peut pas être entièrement fiable pour être créé par l'homme, mais comment les gens reviendront-ils sur ce changement? Alors que certains travaillent de toute urgence à archiver les données «non contaminées» de l'ère pré-AI, d'autres disent que c'est les sorties d'IA elles-mêmes que nous devons enregistrer, afin que les futurs historiens puissent étudier comment les chatbots ont évolué.
Rajiv Pant, un entrepreneur et ancien directeur de la technologie chez les deux Le New York Times et The Wall Street Journaldit qu'il considère l'IA comme un risque pour des informations telles que les reportages qui font partie du dossier historique. «Je pense à ce problème« archéologie numérique »depuis le lancement de Chatgpt, et il devient de plus en plus urgent chaque mois», explique Pant. « À l'heure actuelle, il n'y a pas de moyen fiable de distinguer le contenu de l'auteur de l'homme de matériel généré par l'IA à grande échelle. Ce n'est pas seulement un problème académique, cela affecte tout, du journalisme à la découverte juridique à la recherche scientifique. »
Pour John Graham-Cumming dans la société de cybersécurité Cloudflare, les informations produites avant la fin de 2022, lorsque le chatpt lancé, s'apparente à l'acier à bas niveau. Ce métal, fusionné avant le test de bombe nucléaire de Trinity le 16 juillet 1945, est apprécié pour une utilisation dans des instruments scientifiques et médicaux délicats car il ne contient pas de faible contamination radioactive de l'ère des armes atomiques qui crée du bruit dans les lectures.
Graham-Cumming a créé un site Web appelé lowbackgroundsteel.ai pour archiver des sources de données qui n'ont pas été contaminées par l'IA, comme un téléchargement complet de Wikipedia à partir d'août 2022. Des études ont déjà montré que Wikipedia montre aujourd'hui des signes d'une énorme contribution d'IA.
«Il y a un moment où nous avons tout fait nous-mêmes, et à un moment donné, nous avons commencé à être augmentés considérablement par ces systèmes de chat», dit-il. « Donc, l'idée était de dire – vous pouvez le voir comme une contamination, ou vous pouvez le voir comme une sorte de coffre-fort – vous savez, les humains, nous sommes arrivés ici. Et puis après ce point, nous avons obtenu une aide supplémentaire. »
Mark Graham dirige la Wayback Machine chez Internet Archive, un projet qui archive Internet public depuis 1996, dit qu'il est sceptique quant à l'efficacité de tout nouvel effort pour archiver les données, compte tenu des magasins d'archives Internet jusqu'à 160 téraoctets de nouvelles informations chaque jour.
Plutôt que de préserver l'Internet pré-AI, Graham veut commencer à créer des archives de production d'IA pour les futurs chercheurs et historiens. Il a un plan pour commencer à poser 1000 questions d'actualité par jour de chatbots et à stocker leurs réponses. Et parce que c'est une tâche tellement massive, il utilisera même l'IA pour le faire: l'IA enregistrant la production changeante de l'IA, pour la curiosité des futurs humains.
«Vous lui posez une question spécifique, puis vous obtenez une réponse», explique Graham. « Et puis demain, vous lui posez la même question et vous obtiendrez probablement une réponse légèrement différente. »
Graham-Cumming souligne rapidement qu'il n'est pas anti-AI, et que la préservation des informations créées par l'homme peut en fait bénéficier aux modèles d'IA. En effet, la production d'IA de basse qualité qui est renvoyée dans la formation de nouveaux modèles peut avoir un effet néfaste, conduisant à ce qu'il est appelé «effondrement du modèle». Éviter cela est une entreprise intéressante, dit-il.
«À un moment donné, une de ces IA va penser à quelque chose que nous n'avons pas pensé.


