Les mathématiciens utilisent l'IA et un nouvel algorithme de clustering pour identifier les variantes émergentes du COVID-19

Image stylisée d’un résultat de clustering CLASSIX superposé à une illustration de coronavirus. Crédit : Université de Manchester, CDC / Alissa Eckert, MSMI ; Dan Higgins, MAMS

Un cadre d’IA aide à identifier et à suivre les nouveaux COVID 19 variantes, en utilisant un nouvel algorithme nommé CLASSIX pour traiter efficacement de grands ensembles de données génomiques et améliorer les efforts de détection précoce.

Des scientifiques des universités de Manchester et d’Oxford ont développé un cadre d’IA capable d’identifier et de suivre les variantes nouvelles et préoccupantes du COVID-19 et pourrait aider à lutter contre d’autres infections à l’avenir.

Le cadre combine des techniques de réduction de dimension et un nouvel algorithme de clustering explicable appelé CLASSIX, développé par des mathématiciens de l’Université de Manchester. Cela permet d’identifier rapidement des groupes de génomes viraux qui pourraient présenter un risque à l’avenir à partir d’énormes volumes de données.

L’étude, présentée cette semaine dans la revue PNASpourrait prendre en charge les méthodes traditionnelles de suivi de l’évolution virale, telles que l’analyse phylogénétique, qui nécessitent actuellement une conservation manuelle approfondie.

Roberto Cahuantzi, chercheur à l’Université de Manchester et premier auteur correspondant de l’article, a déclaré : « Depuis l’émergence du COVID-19, nous avons assisté à de multiples vagues de nouveaux variants, à une transmissibilité accrue, à une évasion des réponses immunitaires et à une gravité accrue. de maladie.

« Les scientifiques intensifient désormais leurs efforts pour identifier ces nouveaux variants inquiétants, tels que alpha, delta et omicron, dès les premiers stades de leur émergence. Si nous pouvons trouver un moyen de le faire rapidement et efficacement, cela nous permettra d’être plus proactifs dans notre réponse, comme le développement de vaccins sur mesure, et pourrait même nous permettre d’éliminer les variants avant qu’ils ne s’établissent. »

Diagramme montrant les étapes de la méthode proposée pour identifier les variantes émergentes du COVID-19. Crédit : Université de Manchester

Comme beaucoup d’autres ARN virus, le COVID-19 a un taux de mutation élevé et un court laps de temps entre les générations, ce qui signifie qu’il évolue extrêmement rapidement. Cela signifie que l’identification de nouvelles souches susceptibles de poser problème à l’avenir nécessite des efforts considérables.

Actuellement, près de 16 millions de séquences sont disponibles dans la base de données GISAID (Global Initiative on Sharing All Influenza Data), qui donne accès aux données génomiques des virus grippaux.

La cartographie de l’évolution et de l’histoire de tous les génomes du COVID-19 à partir de ces données est actuellement réalisée en utilisant des quantités extrêmement importantes de temps informatique et humain.

La méthode décrite permet l’automatisation de telles tâches. Les chercheurs ont traité 5,7 millions de séquences à haute couverture en seulement un à deux jours sur un ordinateur portable moderne standard ; cela ne serait pas possible avec les méthodes existantes, ce qui confierait l’identification des souches pathogènes préoccupantes à un plus grand nombre de chercheurs en raison de besoins réduits en ressources.

Thomas House, professeur de sciences mathématiques à l’Université de Manchester, a déclaré : « La quantité sans précédent de données génétiques générées pendant la pandémie exige des améliorations de nos méthodes pour les analyser en profondeur. Les données continuent de croître rapidement, mais sans que leur conservation présente un avantage, il existe un risque qu’elles soient supprimées ou supprimées.

« Nous savons que le temps des experts humains est limité. Notre approche ne doit donc pas remplacer complètement le travail des humains, mais travailler à leurs côtés pour permettre que le travail soit effectué beaucoup plus rapidement et libérer nos experts pour d’autres développements vitaux. »

La méthode proposée fonctionne en décomposant les séquences génétiques du COVID-19 virus en « mots » plus petits (appelés 3-mers) représentés sous forme de nombres en les comptant. Ensuite, il regroupe les séquences similaires en fonction de leurs modèles de mots en utilisant apprentissage automatique techniques.

Stefan Güttel, professeur de mathématiques appliquées à l’Université de Manchester, a déclaré : « L’algorithme de clustering CLASSIX que nous avons développé est beaucoup moins exigeant en termes de calcul que les méthodes traditionnelles et est entièrement explicable, ce qui signifie qu’il fournit des explications textuelles et visuelles des clusters calculés. »

Roberto Cahuantzi a ajouté : « Notre analyse sert de preuve de concept, démontrant l’utilisation potentielle des méthodes d’apprentissage automatique comme outil d’alerte pour la découverte précoce de variantes majeures émergentes sans compter sur la nécessité de générer des phylogénies.

« Bien que la phylogénétique reste la « référence » pour comprendre l’ascendance virale, ces méthodes d’apprentissage automatique peuvent prendre en charge plusieurs ordres de grandeur de séquences supplémentaires par rapport aux méthodes phylogénétiques actuelles et à un faible coût de calcul.

Les mathématiciens utilisent l’IA et un nouvel algorithme de clustering pour identifier les variantes émergentes du COVID-19

La fragilité peut être atténuée grâce à une perfusion de cellules souches provenant de jeunes

Une nouvelle compréhension des causes de la migraine révèle de nouvelles cibles médicamenteuses

Les aliments ultra-transformés pourraient vous faire vieillir plus vite

Le sang des pédiatres utilisé pour fabriquer de nouveaux traitements contre le VRS et le rhume

Nous devons mieux identifier la dépression post-partum chez les papas

Comment les microbiomes des bébés occidentaux diffèrent de ceux du reste du monde

Le capteur auto-alimenté du MIT récolte automatiquement l’énergie magnétique ambiante

La « Zone de la mort » – Décoder les secrets des cercles de fées du désert du Namib

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Un mystère vieux de 60 ans sur la magnétosphère lunaire est enfin résolu

La crème solaire produit des radicaux libres persistants lorsqu'elle est exposée à la lumière, selon une étude

Claude AI : Pourquoi y a-t-il autant de pannes d'internet ?

La signification cachée du vieil Hollywood dans la robe Chanel de Jessie Buckley aux Oscars 2026

L'IA George Washington de Glenn Beck est un fantasme sexuel de droite

Pour créer une « Terre boule de neige », la science-fiction avance rapidement. La géologie est beaucoup plus lente

La méthode composite polymère coupe les micro-vides pour augmenter la conductivité

JWST cartographie le CO₂ d'Europe au-delà de Tara Regio, faisant allusion à un échange souterrain

Les ondes de spin térahertz peuvent être converties en signaux informatiques, selon une étude

Les politiques climatiques peuvent réduire les émissions liées à la croissance économique dans les pays riches

Une visite des bureaux cinématographiques remplis par Frank-Gehry du Département M à Hollywood

Un mystère d’électricité statique refait surface

Thérapie alpha ciblée : un composé prometteur pour des soins unifiés contre le cancer

Pour protéger les astronautes d'Artemis II, les experts de la NASA gardent les yeux rivés sur le soleil

Avant de partir, restons en contact !