Un nouveau modèle d’IA d’apprentissage profond pourrait aider les scientifiques à mieux déchiffrer l’intrigue du manuel d’instructions génétiques et à comprendre comment les fautes de frappe modifient l’histoire.
AlphaGenome, créé par Google DeepMind, est le dernier d'une gamme en constante amélioration de modèles d'IA conçus pour analyser de vastes étendues d'ADN. Le précédent modèle, un modèle appelé Barzoï, pouvait prédire les signes moléculaires dans des segments d'ADN longs de 500 000 bases. AlphaGenome peut analyser 1 million d'éléments constitutifs de l'ADN à la fois, rapportent des chercheurs le 28 janvier dans Nature. Le modèle peut avoir des implications pratiques pour diagnostiquer des maladies génétiques rares, identifier les mutations à l’origine du cancer, concevoir des séquences d’ADN synthétiques ou des ARN thérapeutiques et mieux comprendre la biologie fondamentale.
« AlphaGenome n'est pas seulement un modèle plus grand en termes de longueur de contexte, mais il constitue en fait un grand pas en avant dans son utilité globale », déclare Anshul Kundaje, biologiste informatique à l'Université de Stanford qui développe des modèles d'IA pour la génomique.
Par exemple, un changement génétique peut n’avoir aucun effet sur les gènes proches mais pourrait modifier l’activité de gènes éloignés. Étant donné qu’AlphaGenome examine des étendues d’ADN plus longues, il est plus susceptible de détecter de telles relations à distance.
Mais AlphaGenome n'est pas parfait. Des données non publiées du laboratoire de Kundaje indiquent que le modèle a du mal à prédire comment l'activité des gènes change chez les individus. À l’heure actuelle, le modèle est un outil permettant de découvrir la biologie fondamentale et non quelque chose que les médecins pourraient utiliser pour diagnostiquer ou traiter les patients.
AlphaGenome a « maximisé » ce que ce type de modèle peut faire, dit Kundaje. Il prédit que le prochain grand pas viendra des scientifiques qui généreront de nouveaux types de données que le modèle ou ses descendants pourront analyser.
AlphaGenome peut identifier des points biologiquement importants jusqu'à une résolution de base unique, explique Peter Koo, biologiste informatique au Cold Spring Harbor Laboratory à New York. C'est une résolution beaucoup plus élevée que celle de Barzoï, qui a signalé des points d'intérêt biologique dans 32 groupes de paires de bases.
C'est une tâche de taille étant donné que la référence du modèle est le génome humain de 3 milliards de base, souvent appelé manuel d'instructions génétiques. Le livre est en fait une encyclopédie contextuelle en plusieurs volumes, choisissez votre propre aventure.
Gènes, les nouvelles du livre, sont racontées en petites phrases qui peuvent être réorganisées, raccourcies ou sautées. Entre les fragments d’histoire se trouvent des passages qui peuvent contenir des instructions sur la façon de lire une histoire entièrement différente. Les pages et les chapitres sont complexement repliés les uns dans les autres, de sorte que tirer un onglet dans un passage fait apparaître quelque chose dans les chapitres.
Une grande partie du livre est remplie de ce que beaucoup de gens pensaient être des absurdités, mais il s'agit souvent d'un matériel de lecture essentiel. Les chercheurs ont catalogué une gamme vertigineuse de signes de ponctuation, de plis de type origami, d’échanges de syntaxe, de gribouillages dans les marges et d’autres types de grammaire biologique que les cellules utilisent pour donner un sens au livre.
La tâche d'AlphaGenome consiste à prendre une chaîne de lettres d'ADN et à prédire comment les points de tracé, la ponctuation et d'autres variations affectent 11 processus biologiques distincts, notamment l'épissage de l'ARN, les niveaux d'activité des gènes et certaines interactions protéine-ADN. Le modèle prend en compte 5 930 points de données provenant d’études sur l’ADN humain et 1 128 sur l’ADN de souris. Grâce à ces données, l’IA peut prédire comment la modification d’une seule lettre, ou base, dans la chaîne d’un million de bases modifie l’histoire.
Des modèles informatiques spécialisés qui prédisent des sous-ensembles de ces fonctions biologiques sont utilisés depuis des années, mais AlphaGenome les surpasse dans la plupart des mesures et réussit particulièrement bien à identifier certaines caractéristiques de différents types de cellules, rapportent les chercheurs. Par exemple, AlphaGenome a identifié les changements d’activité génétique dans certains types de cellules 14,7 % mieux que Barzoï2.
« En réussissant simultanément autant de tâches génomiques différentes, nous pensons que cela démontre que le modèle a appris une représentation générale puissante des séquences d'ADN et des processus complexes codés par ces séquences », a déclaré Natasha Latysheva de Google DeepMind le 27 janvier lors d'une conférence de presse.
Cet outil pourrait faciliter la tâche des chercheurs qui tentent de comprendre le fonctionnement du génome, explique Judit García González, généticienne humaine à la faculté de médecine Ichan du Mont Sinaï à New York. Avant AlphaGenome, un chercheur « pourrait avoir besoin d’utiliser trois outils différents avec leurs propres réserves, et [have] pour apprendre comment ils fonctionnent, pour prédire, disons, 20 conséquences fonctionnelles génomiques différentes », dit-elle. Désormais, AlphaGenome rassemble toutes ces conséquences dans un seul outil.
AlphaGenome n'est pas une invention entièrement nouvelle. Il s’appuie sur des modèles précédents mais utilise certains aspects de ces modèles de manière intelligente. « Il n'y a pas d'innovation unique dans AlphaGenome que l'on puisse identifier comme une innovation critique. Il s'agit en réalité d'un système composé de nombreuses astuces et d'ingénierie », explique Koo.
AlphaGenome a utilisé une astuce appelée distillation d'ensemble que le laboratoire de Koo a expérimentée. Cette stratégie pré-entraîne plusieurs copies du modèle, chacune sur un ADN muté informatiquement. Ces modèles servent d’enseignants à un modèle d’élève unique qui fait la moyenne de leurs résultats.
C'est comme si 60 professeurs d'histoire faisaient le récit d'un événement important, dit Koo. « Si vous considérez le consensus sur ce que tous les historiens conviennent, ce qui se chevauche dans leurs histoires, c’est probablement ce qui pourrait réellement être vrai. »
Le consensus, dit-il, « a tendance à être plus fiable que la confiance dans un modèle individuel ».

