Les modèles linguistiques sont désormais également utilisés dans les sciences naturelles. En chimie, ils sont utilisés, par exemple, pour prédire de nouveaux composés biologiquement actifs. Les modèles de langage chimique (CLM) doivent faire l’objet d’une formation approfondie. Cependant, ils n’acquièrent pas nécessairement des connaissances sur les relations biochimiques au cours de la formation. Au lieu de cela, ils tirent des conclusions basées sur des similitudes et des corrélations statistiques, comme le démontre une étude récente de l’Université de Bonn. Les résultats ont maintenant été publiés dans la revue Motifs.
Les grands modèles de langage sont souvent étonnamment bons dans ce qu'ils font, qu'il s'agisse de prouver des théorèmes mathématiques, de composer de la musique ou de rédiger des slogans publicitaires. Mais comment arrivent-ils à leurs résultats ? Comprennent-ils réellement ce qui constitue une symphonie ou une bonne blague ? Il n'est pas si facile de répondre à cette question. « Tous les modèles linguistiques sont une boîte noire », souligne le professeur Jürgen Bajorath. « Il est difficile de regarder dans leur tête, métaphoriquement parlant. »
C’est exactement ce que Bajorath, chercheur en cheminformatique à l’Institut Lamarr pour l’apprentissage automatique et l’intelligence artificielle de l’Université de Bonn, a tenté de faire. Plus précisément, lui et son équipe se sont concentrés sur une forme particulière d’algorithme d’IA : le transformateur CLM.
Ce modèle fonctionne de manière similaire à ChatGPT, Google Gemini et « Grok » d'Elon Musk, qui sont entraînés à l'aide de grandes quantités de texte, leur permettant de générer des phrases de manière indépendante. Les CLM, en revanche, reposent généralement sur beaucoup moins de données. Ils acquièrent leurs connaissances à partir de représentations et de relations moléculaires, par exemple les chaînes dites SMILES. Ce sont des chaînes de caractères qui représentent les molécules et leur structure sous la forme d'une séquence de lettres et de symboles.
Manipulation systématique des données d'entraînement
Dans la recherche pharmaceutique, les scientifiques tentent souvent d’identifier des substances susceptibles d’inhiber certaines enzymes ou de bloquer des récepteurs. Les CLM peuvent être utilisés pour prédire des molécules actives sur la base des séquences d’acides aminés des protéines cibles. « Nous avons utilisé la conception moléculaire basée sur les séquences comme système de test pour mieux comprendre comment les transformateurs parviennent à leurs prédictions », explique Jannik Roth, doctorant travaillant avec Bajorath.
« Après la phase d'entraînement, si vous introduisez une nouvelle enzyme dans un tel modèle, elle peut produire un composé capable de l'inhiber. Mais cela signifie-t-il que l'IA a appris les principes biochimiques derrière une telle inhibition ? »
Les CLM sont formés à l'aide de paires de séquences d'acides aminés de protéines cibles et de leurs composés actifs connus respectifs. Afin de répondre à leur question de recherche, les scientifiques ont systématiquement manipulé les données de formation.
« Par exemple, nous avons initialement nourri uniquement les familles d'enzymes spécifiques au modèle et leurs inhibiteurs », explique Bajorath. « Lorsque nous avons ensuite utilisé une nouvelle enzyme de la même famille à des fins de tests, l'algorithme a en fait suggéré un inhibiteur plausible. »
Cependant, la situation était différente lorsque les chercheurs ont utilisé dans le test une enzyme d'une autre famille, c'est-à-dire une enzyme qui remplit une fonction différente dans l'organisme. Dans ce cas, le CLM n’a pas réussi à prédire correctement les composés actifs.
Règle empirique statistique
« Cela suggère que le modèle n'a pas appris les principes chimiques généralement applicables, c'est-à-dire le fonctionnement chimique habituel de l'inhibition enzymatique », explique le scientifique. Au lieu de cela, les suggestions sont basées uniquement sur des corrélations statistiques, c'est-à-dire des tendances dans les données. Par exemple, si la nouvelle enzyme ressemble à une séquence d’entraînement, un inhibiteur similaire sera probablement actif. En d’autres termes, des enzymes similaires ont tendance à interagir avec des composés similaires.
« Une telle règle empirique basée sur une similarité statistiquement détectable n'est pas nécessairement une mauvaise chose », déclare Bajorath, qui dirige le domaine « IA dans les sciences de la vie et la santé » à l'Institut Lamarr. « Après tout, cela peut également aider à identifier de nouvelles applications pour les substances actives existantes. »
Cependant, les modèles utilisés dans l’étude manquaient de connaissances biochimiques pour estimer les similitudes. Ils considéraient que les enzymes (ou les récepteurs et autres protéines) étaient similaires s'ils correspondaient à 50 à 60 % de leur séquence d'acides aminés et, par conséquent, suggéraient des inhibiteurs similaires. Les chercheurs pouvaient randomiser et brouiller les séquences à volonté, à condition de conserver suffisamment d’acides aminés d’origine.
Cependant, seules des parties très spécifiques d’une enzyme sont souvent nécessaires pour accomplir sa tâche. Un seul changement d’acide aminé dans une telle région peut rendre une enzyme dysfonctionnelle. D'autres domaines sont plus importants pour l'intégrité structurelle et moins pertinents pour des fonctions spécifiques. « Au cours de leur formation, les modèles n'ont pas appris à faire la distinction entre les parties de séquence fonctionnellement importantes et sans importance », explique Bajorath.
Les modèles répètent simplement ce qu'ils ont lu auparavant
Les résultats de l'étude montrent donc que les CLM de transformateur formés pour la conception de composés basés sur la séquence manquent de compréhension chimique plus approfondie, du moins pour ce système de test. En d’autres termes, ils se contentent de récapituler, avec de légères variantes, ce qu’ils avaient déjà retenu dans un contexte similaire à un moment donné.
« Cela ne veut pas dire qu'ils ne conviennent pas à la recherche sur les médicaments », explique Bajorath. « Il est fort possible qu'ils suggèrent des médicaments qui bloquent certains récepteurs ou inhibent des enzymes. »
Cependant, ce n’est certainement pas parce qu’ils comprennent si bien la chimie, mais parce qu’ils reconnaissent des similitudes dans les représentations moléculaires basées sur des textes et des corrélations statistiques qui nous restent cachées. Cela ne discrédite pas leurs résultats. Il ne faut cependant pas non plus les surinterpréter.


