in

Biotech Firm vise à créer «Chatgpt de biologie» – cela fonctionnera-t-il?

Biotech Firm vise à créer «Chatgpt de biologie» - cela fonctionnera-t-il?

Une entreprise britannique de biotechnologie a passé des années à collecter des données génétiques qui ont découvert 1 million d'espèces microbiennes et des milliards de gènes nouvellement identifiés – mais même cette mine de données peut ne pas être suffisante pour former un biologiste de l'IA

Biotech Firm vise à créer «Chatgpt de biologie» - cela fonctionnera-t-il?

Les chercheurs de la zone de base recueillent des données génétiques à Malte

Une entreprise de biotechnologie britannique appelée Basecamp Research a passé ces dernières années à collecter des trox de données génétiques à partir de microbes vivant dans des environnements extrêmes à travers le monde, identifiant plus d'un million d'espèces et près de 10 milliards de gènes nouveaux pour la science. Il prétend que cette base de données massive de la biodiversité de la planète aidera à former un «chatppt de biologie» qui répondra aux questions sur la vie sur Terre – mais rien ne garantit que cela fonctionnera.

Jörg Overmann au Leibniz Institute DSMZ en Allemagne, qui abrite l'une des collections les plus diverses de cultures microbiennes au monde, dit que l'augmentation des séquences génétiques connues est précieuse, mais peut ne pas entraîner de résultats utiles pour des choses comme la découverte de médicaments ou la chimie sans plus d'informations sur les organismes à partir desquels ils ont été collectés. «Je ne suis pas convaincu qu'en fin de compte, la compréhension de fonctions vraiment nouvelles sera accélérée par cette augmentation de force brute dans l'espace de séquence», dit-il.

Ces dernières années ont vu des chercheurs développer un certain nombre de modèles d'apprentissage automatique formés pour identifier les modèles et prédire les relations au milieu de grandes quantités de données biologiques. Le plus célèbre d'entre eux est Alphafold, qui peut prédire la structure 3D d'une protéine basée uniquement sur des données génétiques, et a gagné ses créateurs à Google Deepmind le prix Nobel de la chimie 2024.

Bien que de tels modèles de «biologie générative» soient devenus de plus en plus complexes depuis, ils ne s'y sont pas améliorés, explique Frances Ding à l'Université de Californie à Berkeley. Une des raisons pourrait être un manque de données sur la biodiversaire. «Les modèles actuels en biologie sont formés sur des ensembles de données qui représentent de manière disproportionnée des espèces bien étudiées (par exemple, E. colisouris, humains), et ces modèles sont pires pour prédire les propriétés sur les séquences d'autres parties de l'arbre de vie », dit-elle.

Les chercheurs de Basecamp ont décidé de combler cet écart de biodiversité. La base de données croissante de l'entreprise contient désormais des échantillons de plus de 120 sites dans 26 pays, selon un rapport publié par la société. Jonathan Finn, directeur des sciences de la société, affirme que les efforts de collecte se sont concentrés sur des environnements extrêmes qui n'avaient pas encore été largement échantillonnés, allant de l'eau glaciale sous la glace de mer arctique aux sources chaudes de la jungle. «La plupart des échantillons que nous avons effectués sont des échantillons procaryotes: bactéries, microbes et leurs virus», explique Finn. «Je sais que nous avons des champignons là-dedans.»

L'analyse génétique de ces échantillons a révélé des différences dans les gènes partagés presque universellement à travers l'arbre de vie – sur la base de cela, la société estime que les données contient des informations de plus d'un million d'espèces qui ne se produisent pas dans les ensembles de données génomiques publiques utilisés pour former des modèles de biologie de l'IA. Ceux-ci contiennent collectivement environ 9,8 milliards de gènes nouvellement identifiés, une augmentation de 10 fois du nombre total de gènes connus, dont chacun code pour une protéine potentiellement utile, selon les chercheurs.

«En montrant à ces modèles un grand morceau de la nature, ils devraient mieux comprendre le fonctionnement de la biologie», explique Finn. «Nous essayons de construire un chat de biologie.»

Selon certaines estimations, la Terre héberge jusqu'à un billion d'espèces microbiennes, presque dont aucune n'est bien caractérisée. Donc, il n'est pas extrêmement surprenant que l'entreprise ait identifié autant de vie. «Il est presque inévitable que si vous explorez plus, vous obtenez plus de variantes de gènes différentes», explique Leopold Parts au Wellcome Sanger Institute, au Royaume-Uni.

Mais Basecamp est mis sur l'idée que tout le nouveau matériel pourrait être précieux – et ce n'est pas seul. «C'est l'une des choses les plus excitantes que j'ai vues depuis longtemps», explique Nathan Frey, chercheur à l'apprentissage automatique chez Genentech, une entreprise de biotechnologie aux États-Unis. En général, il dit que le travail sur les modèles d'IA pour la biologie s'est concentré sur l'amélioration des algorithmes ou la génération de plus de données dans les laboratoires plutôt que de sortir dans le monde et de collecter des échantillons.

Cependant, il y a des raisons d'être sceptiques quant à ce que la base de données conduise aux modèles radicalement améliorés que la société souhaite. D'une part, il n'est pas clair dans quelle mesure cette nouvelle diversité de protéines représente de nouvelles fonctions de précieuses, telles que les enzymes ou les protéines mangeuses de plastique qui pourraient être réutilisées pour l'édition génétique. «Ils doivent montrer que cette nouveauté est utile d'une manière ou d'une autre», explique Parts.

De plus, si les nouveaux gènes sont vraiment considérablement différents de ceux que nous connaissons déjà, Overmann ne voit pas comment les outils existants peuvent facilement prédire leurs fonctions, ni comment les données peuvent être utilisées pour former un nouveau modèle. «Vous n'avez aucune idée de ce que font la majorité des gènes», dit-il. L'entreprise aurait bien pu assembler un trésor de nouvelles biologies, mais sans plus de travail de laboratoire à l'ancienne pour comprendre ce qui est là, il peut rester mystérieux, même pour l'IA la plus puissante.

Les larves d'étoiles de mer cryoconservées pourraient permettre aux espèces vitales de récupérer

Les larves d'étoiles de mer cryoconservées pourraient permettre aux espèces vitales de récupérer

Les fusées réutilisables pourraient-elles rendre la géo-ingénierie solaire moins risquée?

Les fusées réutilisables pourraient-elles rendre la géo-ingénierie solaire moins risquée?