in

Un nouveau système d'IA développé à Harvard débloque le code source de la biologie

SciTechDaily

Une étude révolutionnaire menée par Yunha Hwang et son équipe a développé gLM, un système d'IA qui décode le langage complexe de la génomique à partir de nombreuses données microbiennes. Cette innovation permet une compréhension plus approfondie des fonctions et des régulations des gènes, conduisant à de nouvelles découvertes en génomique. gLM illustre le potentiel de l’IA pour faire progresser les sciences de la vie et relever les défis mondiaux. Crédit : Issues.fr.com

Les systèmes d’intelligence artificielle (IA), comme ChatGTP, ont pris d’assaut le monde. Il n'y a pas grand-chose dans lequel ils ne participent pas, qu'il s'agisse de recommander la prochaine émission de télévision digne d'une frénésie ou d'aider à naviguer dans la circulation. Mais les systèmes d’IA peuvent-ils apprendre le langage de la vie et aider les biologistes à révéler des avancées scientifiques passionnantes ?

Dans une nouvelle étude publiée dans Communications naturellesune équipe interdisciplinaire de chercheurs dirigée par Yunha Hwang, doctorante au Département de biologie organique et évolutive (OEB) de Harvard, a mis au point un système d'intelligence artificielle (IA) capable de déchiffrer le langage complexe de la génomique.

Le langage génomique est le code source de la biologie. Il décrit les fonctions biologiques et la grammaire régulatrice codées dans les génomes. Les chercheurs ont demandé : pouvons-nous développer un moteur d’IA pour « lire » le langage génomique et maîtriser ce langage, en comprenant la signification, ou les fonctions et régulations, des gènes ? L’équipe a introduit l’ensemble de données métagénomiques microbiennes, l’ensemble de données génomiques le plus vaste et le plus diversifié disponible, dans la machine pour créer le modèle de langage génomique (gLM).

Le défi des données génomiques

« En biologie, nous disposons d’un dictionnaire de mots connus et les chercheurs travaillent sur ces mots connus. Le problème est que cette fraction de mots connus constitue moins d’un pour cent des séquences biologiques », a déclaré Hwang. « La quantité et la diversité des données génomiques explosent, mais les humains sont incapables de traiter une si grande quantité de données complexes. »

Les grands modèles linguistiques (LLM), comme GPT4, apprennent la signification des mots en traitant d'énormes quantités de données textuelles diverses qui permettent de comprendre les relations entre les mots. Le modèle de langage génomique (gLM) apprend à partir de données métagénomiques très diverses, provenant de microbes habitant divers environnements, notamment l'océan, le sol et l'intestin humain. Grâce à ces données, gLM apprend à comprendre la « sémantique » fonctionnelle et la « syntaxe » régulatrice de chaque gène en apprenant la relation entre le gène et son contexte génomique. Le gLM, comme les LLM, est un modèle auto-supervisé : cela signifie qu'il apprend des représentations significatives de gènes à partir des seules données et ne nécessite pas d'étiquettes attribuées par l'homme.

Dévoiler l'inconnu en génomique

Les chercheurs ont séquencé certains des organismes les plus étudiés, comme les humains, E. coli et les mouches des fruits. Cependant, même pour les génomes les plus étudiés, la majorité des gènes restent mal caractérisés. « Nous avons beaucoup appris dans cette ère révolutionnaire des « omiques », y compris tout ce que nous ne savons pas », a déclaré l'auteur principal, le professeur Peter Girguis, également à l'OEB à Harvard. « Nous avons demandé : comment pouvons-nous tirer un sens de quelque chose sans nous appuyer sur un dictionnaire proverbial ? Comment mieux comprendre le contenu et le contexte d’un génome ?

L'étude démontre que gLM apprend les fonctions enzymatiques et les modules génétiques co-régulés (appelés opérons) et fournit un contexte génomique capable de prédire la fonction des gènes. Le modèle apprend également des informations taxonomiques et les dépendances contextuelles des fonctions des gènes. Étonnamment, gLM ne sait pas quelle enzyme il détecte, ni de quelle bactérie provient la séquence. Cependant, parce qu’il a vu de nombreuses séquences et comprend les relations évolutives entre les séquences au cours de l’entraînement, il est capable d’en déduire les relations fonctionnelles et évolutives entre les séquences.

Le potentiel du gLM en biologie

« Comme les mots, les gènes peuvent avoir des « significations » différentes selon le contexte dans lequel ils se trouvent. À l’inverse, des gènes hautement différenciés peuvent avoir une fonction « synonyme ». gLM permet un cadre beaucoup plus nuancé pour comprendre la fonction des gènes. Cela contraste avec la méthode existante de cartographie un à un de la séquence à l’annotation, qui n’est pas représentative de la nature dynamique et dépendante du contexte du langage génomique », a déclaré Hwang.

Hwang a fait équipe avec les co-auteurs Andre Cornman (un chercheur indépendant en apprentissage automatique et biologie), Sergey Ovchinnikov (ancien John Harvard Distinguished Fellow et actuel professeur adjoint à MIT) et Elizabeth Kellogg (professeur associé à l'hôpital de recherche pour enfants St. Jude) pour former une équipe interdisciplinaire possédant de solides connaissances en microbiologie, génomes, bioinformatique, science des protéines et apprentissage automatique.

« En laboratoire, nous sommes coincés dans un processus étape par étape consistant à trouver un gène, à fabriquer une protéine, à la purifier, à la caractériser, etc. et nous ne découvrons donc en quelque sorte que ce que nous savons déjà », a déclaré Girguis. Le gLM, cependant, permet aux biologistes d'examiner le contexte d'un gène inconnu et son rôle lorsqu'il se trouve souvent dans des groupes de gènes similaires. Le modèle peut indiquer aux chercheurs que ces groupes de gènes travaillent ensemble pour réaliser quelque chose, et il peut fournir des réponses qui n'apparaissent pas dans le « dictionnaire ».

« Le contexte génomique contient des informations essentielles pour comprendre l'histoire évolutive et les trajectoires évolutives de différentes protéines et gènes », a déclaré Hwang. « En fin de compte, gLM apprend ces informations contextuelles pour aider les chercheurs à comprendre les fonctions de gènes qui n'étaient auparavant pas annotés. »

« Les méthodes traditionnelles d’annotation fonctionnelle se concentrent généralement sur une protéine à la fois, ignorant les interactions entre les protéines. gLM représente une avancée majeure en intégrant le concept de quartiers de gènes avec des modèles de langage, offrant ainsi une vision plus complète des interactions protéiques », a déclaré Martin Steinegger (professeur adjoint, Université nationale de Séoul), expert en bioinformatique et en apprentissage automatique, qui n'était pas impliqués dans l’étude.

Grâce à la modélisation du langage génomique, les biologistes peuvent découvrir de nouveaux modèles génomiques et découvrir une nouvelle biologie. gLM constitue une étape importante dans la collaboration interdisciplinaire qui stimule les progrès dans les sciences de la vie.

« Avec gLM, nous pouvons acquérir de nouvelles connaissances sur les génomes mal annotés », a déclaré Hwang. « gLM peut également guider la validation expérimentale des fonctions et permettre la découverte de nouvelles fonctions et mécanismes biologiques. Nous espérons que gLM pourra accélérer la découverte de nouvelles solutions biotechnologiques pour le changement climatique et la bioéconomie.

« Aidez la campagne » : le témoignage de l'ancien éditeur du National Enquirer semble plutôt mauvais pour Donald Trump

« Aidez la campagne » : le témoignage de l'ancien éditeur du National Enquirer semble plutôt mauvais pour Donald Trump

SciTechDaily

ALMA découvre les éléments constitutifs de la formation d'étoiles dans la galaxie Starburst