in

Percée en bioinformatique : l’IA prédit les transformations des types cellulaires

SciTechDaily

Les cellules changent de forme et de fonction lorsqu'elles sont reprogrammées en réponse à l'altération exogène de l'expression d'une poignée de gènes clés identifiés par l'approche informatique. Crédit : Ellie Mejía/Université Northwestern

L'IA analyse les données accessibles pour identifier les modifications génétiques qui modifient l'activité cellulaire.

Les progrès de la technologie de séquençage génétique et de la puissance de calcul ont considérablement augmenté la disponibilité des données bioinformatiques et les capacités de traitement. Cette convergence offre une opportunité idéale à l’intelligence artificielle (IA) pour développer des méthodes permettant de contrôler le comportement cellulaire.

Dans une nouvelle étude, des chercheurs de l'Université Northwestern ont récolté les fruits de ce lien en développant une approche d'apprentissage par transfert basée sur l'IA qui réutilise les données accessibles au public pour prédire des combinaisons de perturbations génétiques susceptibles de transformer le type de cellule ou de restaurer la santé des cellules malades.

L'étude a été récemment publiée dans le Actes de l'Académie nationale des sciences.

Depuis l'achèvement du projet sur le génome humain il y a 20 ans, les scientifiques savent que ADN comprend plus de 20 000 gènes. Cependant, la manière dont ces gènes fonctionnent ensemble pour orchestrer les centaines de types de cellules différents de notre corps reste un mystère.

Étonnamment, essentiellement par essais et erreurs guidés, les chercheurs ont démontré qu’il est possible de « reprogrammer » un type cellulaire en manipulant seulement une poignée de gènes. Le projet sur le génome humain a également facilité les progrès des technologies de séquençage, rendant moins coûteuse non seulement la lecture du code génétique, mais également la mesure de l’expression des gènes, qui quantifie les précurseurs des protéines qui assurent les fonctions cellulaires. Cette augmentation de l’accessibilité a conduit à l’accumulation d’une quantité massive de données bioinformatiques accessibles au public, augmentant ainsi la possibilité de synthétiser ces données pour concevoir de manière rationnelle des manipulations génétiques pouvant susciter les comportements cellulaires souhaités.

La capacité de contrôler le comportement cellulaire, et donc les transitions entre les types de cellules, peut être appliquée à la repousse des tissus blessés ou à la transformation des cellules cancéreuses en cellules normales.

Les tissus lésés résultant d'accidents vasculaires cérébraux, d'arthrite et de sclérose en plaques touchent 2,9 millions de personnes chaque année aux États-Unis, ce qui coûte jusqu'à 400 millions de dollars par an. Parallèlement, les cancers sont responsables d’environ 10 millions de décès par an dans le monde, avec des coûts économiques de plusieurs milliards de dollars. Étant donné que les normes de soins actuelles ne régénèrent pas les tissus et/ou ont une efficacité limitée, il existe un besoin crucial de développer des traitements plus efficaces et largement applicables, ce qui nécessite à son tour l'identification d'interventions moléculaires pouvant être déduites à partir de données à haut débit.

Dans la nouvelle étude, les chercheurs entraînent leur IA pour apprendre comment l’expression des gènes donne lieu au comportement cellulaire à l’aide de données d’expression des gènes accessibles au public. Le modèle prédictif généré par ce processus d’apprentissage est transféré vers des applications spécifiques de reprogrammation cellulaire. Dans chaque application, l’approche trouve la combinaison de manipulations génétiques la plus susceptible d’induire la transition de type cellulaire souhaitée.

Exploration sans précédent de la dynamique à l’échelle du génome

« Notre travail se démarque des approches précédentes visant à concevoir rationnellement des stratégies pour manipuler le comportement cellulaire », a déclaré Thomas Wytock, auteur principal de l'article et membre du Center for Network Dynamics à Université du nord-ouest. « Ces approches se répartissent principalement en deux catégories : l’une dans laquelle les gènes sont organisés en réseaux en fonction de leurs interactions ou de leurs propriétés communes ; et un autre dans lequel l’expression des gènes de cellules saines et malades est comparée afin d’identifier les gènes qui présentent les plus grandes différences.

Dans la première catégorie, il existe un compromis entre réalisme et échelle. Certains modèles de réseaux comprennent de nombreux gènes mais indiquent uniquement si une relation est présente ou absente. D'autres modèles sont quantitatifs et validés expérimentalement mais impliquent nécessairement un petit nombre de gènes et de relations. Le nouveau travail de Northwestern conserve les atouts des deux types de modèles : il inclut tous les gènes de la cellule et quantitatif dans la représentation de leurs expressions. Ceci est réalisé en réduisant l'expression de près de 20 000 gènes individuels à un maximum de 10 combinaisons linéaires de ces gènes, qui sont des moyennes pondérées appelées gènes propres.

« Les gènes propres montrent essentiellement comment les gènes fonctionnent de concert, ce qui permet de simplifier la dynamique d'un vaste réseau dynamique à seulement quelques pièces mobiles », a déclaré Adilson Motter, professeur de physique Charles E. et Emma H. ​​Morrison au Weinberg College. of Arts and Sciences, directeur du Center for Network Dynamics à la Northwestern University et auteur principal de l'étude. « Chaque gène propre peut être considéré comme une voie généralisée approximativement indépendante des autres. Ainsi, les gènes propres détectent les corrélations et les indépendances pertinentes dans le réseau de régulation génétique.

Les approches de la deuxième catégorie peuvent trouver des gènes individuels associés à un changement de comportement cellulaire, mais ne parviennent pas à préciser comment les gènes travaillent ensemble pour permettre ce changement. La nouvelle approche surmonte ce défi en reconnaissant que les gènes modifient leurs expressions de concert. La prise en compte quantitative de cette propriété en termes de gènes propres permet de combiner de manière additive leurs réponses à différentes perturbations génétiques en les mettant à l'échelle de manière appropriée. Les réponses combinées peuvent ensuite être entrées dans le modèle d’IA pour déterminer quelles perturbations provoquent le comportement cellulaire souhaité.

Éviter l’explosion combinatoire

Équipés de ce modèle d'IA, les chercheurs ont rassemblé des données accessibles au public pour identifier comment l'expression des gènes change lorsqu'un seul gène est perturbé par une augmentation ou une diminution exogène de son expression. Ils ont ensuite développé un algorithme pour résoudre le problème inverse, qui consiste à prédire les combinaisons de gènes les plus susceptibles d’induire une transition de reprogrammation souhaitée, par exemple pour amener les cellules malades à se comporter comme des cellules saines. L’approche qui résulte de l’intégration des données et de l’algorithme évite l’explosion combinatoire qui résulterait du test de toutes les combinaisons afin d’identifier celles qui sont efficaces. Ceci est important car les expériences ne peuvent tester qu’un nombre limité de cas et l’algorithme permet d’identifier les cas les plus prometteurs à tester.

« L'approche brille par sa capacité à examiner une myriade de combinaisons par calcul », a déclaré Wytock. « Par exemple, les combinaisons par paires de 200 perturbations donnent 20 000 cas, les triples donnent plus de 1,3 million de cas, et ce nombre continue de croître de façon exponentielle. Parce que l’algorithme utilise l’optimisation, l’approche peut comparer les prédictions sur un nombre potentiellement infini de combinaisons grâce à la magie du calcul.

Un autre défi contourné par cette approche est que les perturbations génétiques peuvent se combiner de manière non additive. Par exemple, considérons l’impact des perturbations génétiques sur le taux de croissance cellulaire et imaginez que les perturbations réduisent de moitié le taux de croissance lorsqu’elles sont appliquées isolément. Les effets de deux de ces perturbations se combinent de manière non additive si elles réduisent la croissance à un niveau nettement supérieur ou significativement inférieur à la moitié de la moitié (ou au quart). Même s'il existe de nombreuses recherches caractérisant les interactions non additives entre les gènes, la nouvelle approche est efficace même sans avoir à prendre en compte de tels écarts par rapport à l'additivité.

« Il s'agit d'un cas dans lequel le tout est bien approximé par la somme des parties », a déclaré Motter.

« Cette propriété des interventions nécessaires pour induire des transitions entre les types de cellules est contre-intuitive car les types de cellules eux-mêmes émergent d'interactions collectives entre les gènes. »

Parce que l’approche répond aux principaux défis liés au contrôle du comportement cellulaire, elle peut être appliquée à de nombreuses conditions biomédicales différentes, y compris celles qui bénéficieront des données futures.

Un modèle flexible pour les données à venir

Le fait que les réponses aux perturbations génétiques se combinent de manière additive facilite la généralisation à travers les types de cellules. Par exemple, si un gène est perturbé dans une cellule de la peau, l’impact sur son expression serait largement le même dans une cellule hépatique.

Ainsi, l’approche basée sur l’IA peut être considérée comme une plate-forme dans laquelle des données relatives à une maladie spécifique chez un patient spécifique peuvent être insérées. Cette approche peut être appliquée chaque fois que guérir la maladie peut être conçu comme un problème de reprogrammation, comme dans le cas des cancers, du diabète et des maladies auto-immunes, qui résultent tous d’un dysfonctionnement cellulaire.

La polyvalence de l'approche permet à l'expression génique d'une seule étude d'être rapidement contextualisée dans toutes les données disponibles dans les archives de lecture de séquençage du National Center for Biotechnology Information, qui est le plus grand référentiel accessible au public pour les données sur l'expression génique. Cette archive a été multipliée par 100, passant de 10 téraoctets à 1 000 téraoctets entre 2012 et 2022, et continue de croître de façon exponentielle à mesure que les coûts de séquençage diminuent. Ce travail fournit un outil essentiel pour traduire cette richesse de données en prédictions spécifiques sur la manière dont les gènes travaillent ensemble pour contrôler le comportement des cellules normales et malades.

L'étude a été soutenue par le Bureau de recherche de l'armée, Instituts nationaux de la santéNational Science Foundation et Malnati Brain Tumor Institute de la Northwestern University.

SciTechDaily

Le séquençage avancé de l’ARN révèle les moteurs des nouvelles variantes de COVID

SciTechDaily

Glace à la limite de l'Antarctique : prévisions presque record pour 2024