La fabrication de protéines de haute performance pour des médicaments ou des produits de consommation peut faire l’objet d’essais après essais, d’ajustements, d’expériences et de mises au point. Un nouveau cadre d’apprentissage automatique regroupe tout cela en une seule série de tests.
La technique, appelée MULTI-evolve, prédit le comportement des protéines lorsque plusieurs de leurs acides aminés sont remplacés par d'autres. MULTI-evolve combine des expériences en laboratoire avec l'apprentissage automatique pour trouver ces protéines améliorées, rapportent des chercheurs le 19 février dans Science.
Les protéines spécialement conçues jouent un rôle dans les produits du quotidien comme les médicaments, les biocarburants et même les détergents à lessive. Les scientifiques doivent généralement remplacer plusieurs acides aminés au cours du processus de conception pour améliorer les performances d'une protéine. Mais le remplacement d'un acide aminé par un autre peut modifier la manière dont le prochain échange affectera la fonction de la protéine. Ainsi, trouver des combinaisons d'échanges qui fonctionnent bien ensemble nécessite souvent de nombreuses séries itératives de modifications et de tests en laboratoire. « Il s'agit d'un problème de recherche de très grande dimension dans lequel nous devinons et vérifions efficacement », explique Patrick Hsu, bio-ingénieur à l'Université de Californie à Berkeley et à l'Arc Institute de Palo Alto, en Californie.
Hsu et ses collègues ont construit le flux de travail MULTI-evolve pour supprimer la plupart de ces itérations et prédire les protéines hautes performances avec plusieurs échanges, ou mutations, au cours d'une seule série de tests. Pour ce faire, ils avaient besoin d’informations sur la manière dont les différentes mutations s’affectaient mutuellement. Pour chaque protéine ciblée par l’équipe, le flux de travail comportait trois étapes. Premièrement, les chercheurs ont utilisé des données antérieures ou des techniques d’apprentissage automatique pour prédire comment les échanges d’acides aminés uniques affecteraient la fonction des protéines. Ensuite, pour établir comment les mutations interagissaient les unes avec les autres, ils ont créé une série de protéines comportant chacune deux de ces mutations en laboratoire et ont testé le fonctionnement de chacune d’elles. Enfin, ils ont formé un modèle d’apprentissage automatique sur ces données de laboratoire et lui ont demandé de prédire dans quelle mesure la protéine cible fonctionnerait avec cinq mutations ou plus.
L’équipe a testé MULTI-evolve sur trois protéines, dont un anticorps pertinent contre les maladies auto-immunes et une protéine utilisée dans l’édition génétique CRISPR. Dans chaque cas, le modèle a trouvé plusieurs combinaisons de mutations qui, lors des tests en laboratoire, ont surpassé les protéines d'origine, ce qui suggère que le modèle pourrait sélectionner un ensemble d'échanges qui fonctionnent bien ensemble.
Parmi les nombreux emplois liés aux protéines que MULTI-evolve pourrait rationaliser, Hsu en a souligné deux : utiliser une protéine pour suivre le mouvement d'une autre à l'intérieur d'une cellule et créer de meilleures thérapies géniques pour les personnes dont le corps ne produit pas certaines enzymes. « Nous sommes enthousiasmés par ce travail », déclare Hsu. « Je pense que la façon dont cela change réellement la pratique de la science suscite un énorme intérêt. »

