Image stylisée d’un résultat de clustering CLASSIX superposé à une illustration de coronavirus. Crédit : Université de Manchester, CDC / Alissa Eckert, MSMI ; Dan Higgins, MAMS
Un cadre d’IA aide à identifier et à suivre les nouveaux COVID 19 variantes, en utilisant un nouvel algorithme nommé CLASSIX pour traiter efficacement de grands ensembles de données génomiques et améliorer les efforts de détection précoce.
Des scientifiques des universités de Manchester et d’Oxford ont développé un cadre d’IA capable d’identifier et de suivre les variantes nouvelles et préoccupantes du COVID-19 et pourrait aider à lutter contre d’autres infections à l’avenir.
Le cadre combine des techniques de réduction de dimension et un nouvel algorithme de clustering explicable appelé CLASSIX, développé par des mathématiciens de l’Université de Manchester. Cela permet d’identifier rapidement des groupes de génomes viraux qui pourraient présenter un risque à l’avenir à partir d’énormes volumes de données.
L’étude, présentée cette semaine dans la revue PNASpourrait prendre en charge les méthodes traditionnelles de suivi de l’évolution virale, telles que l’analyse phylogénétique, qui nécessitent actuellement une conservation manuelle approfondie.
Roberto Cahuantzi, chercheur à l’Université de Manchester et premier auteur correspondant de l’article, a déclaré : « Depuis l’émergence du COVID-19, nous avons assisté à de multiples vagues de nouveaux variants, à une transmissibilité accrue, à une évasion des réponses immunitaires et à une gravité accrue. de maladie.
« Les scientifiques intensifient désormais leurs efforts pour identifier ces nouveaux variants inquiétants, tels que alpha, delta et omicron, dès les premiers stades de leur émergence. Si nous pouvons trouver un moyen de le faire rapidement et efficacement, cela nous permettra d’être plus proactifs dans notre réponse, comme le développement de vaccins sur mesure, et pourrait même nous permettre d’éliminer les variants avant qu’ils ne s’établissent. »
Diagramme montrant les étapes de la méthode proposée pour identifier les variantes émergentes du COVID-19. Crédit : Université de Manchester
Comme beaucoup d’autres ARN virus, le COVID-19 a un taux de mutation élevé et un court laps de temps entre les générations, ce qui signifie qu’il évolue extrêmement rapidement. Cela signifie que l’identification de nouvelles souches susceptibles de poser problème à l’avenir nécessite des efforts considérables.
Actuellement, près de 16 millions de séquences sont disponibles dans la base de données GISAID (Global Initiative on Sharing All Influenza Data), qui donne accès aux données génomiques des virus grippaux.
La cartographie de l’évolution et de l’histoire de tous les génomes du COVID-19 à partir de ces données est actuellement réalisée en utilisant des quantités extrêmement importantes de temps informatique et humain.
La méthode décrite permet l’automatisation de telles tâches. Les chercheurs ont traité 5,7 millions de séquences à haute couverture en seulement un à deux jours sur un ordinateur portable moderne standard ; cela ne serait pas possible avec les méthodes existantes, ce qui confierait l’identification des souches pathogènes préoccupantes à un plus grand nombre de chercheurs en raison de besoins réduits en ressources.
Thomas House, professeur de sciences mathématiques à l’Université de Manchester, a déclaré : « La quantité sans précédent de données génétiques générées pendant la pandémie exige des améliorations de nos méthodes pour les analyser en profondeur. Les données continuent de croître rapidement, mais sans que leur conservation présente un avantage, il existe un risque qu’elles soient supprimées ou supprimées.
« Nous savons que le temps des experts humains est limité. Notre approche ne doit donc pas remplacer complètement le travail des humains, mais travailler à leurs côtés pour permettre que le travail soit effectué beaucoup plus rapidement et libérer nos experts pour d’autres développements vitaux. »
La méthode proposée fonctionne en décomposant les séquences génétiques du COVID-19 virus en « mots » plus petits (appelés 3-mers) représentés sous forme de nombres en les comptant. Ensuite, il regroupe les séquences similaires en fonction de leurs modèles de mots en utilisant apprentissage automatique techniques.
Stefan Güttel, professeur de mathématiques appliquées à l’Université de Manchester, a déclaré : « L’algorithme de clustering CLASSIX que nous avons développé est beaucoup moins exigeant en termes de calcul que les méthodes traditionnelles et est entièrement explicable, ce qui signifie qu’il fournit des explications textuelles et visuelles des clusters calculés. »
Roberto Cahuantzi a ajouté : « Notre analyse sert de preuve de concept, démontrant l’utilisation potentielle des méthodes d’apprentissage automatique comme outil d’alerte pour la découverte précoce de variantes majeures émergentes sans compter sur la nécessité de générer des phylogénies.
« Bien que la phylogénétique reste la « référence » pour comprendre l’ascendance virale, ces méthodes d’apprentissage automatique peuvent prendre en charge plusieurs ordres de grandeur de séquences supplémentaires par rapport aux méthodes phylogénétiques actuelles et à un faible coût de calcul.


