Les modèles de langage chimique n'ont pas besoin de comprendre la chimie, démontre une étude

Les modèles linguistiques sont désormais également utilisés dans les sciences naturelles. En chimie, ils sont utilisés, par exemple, pour prédire de nouveaux composés biologiquement actifs. Les modèles de langage chimique (CLM) doivent faire l’objet d’une formation approfondie. Cependant, ils n’acquièrent pas nécessairement des connaissances sur les relations biochimiques au cours de la formation. Au lieu de cela, ils tirent des conclusions basées sur des similitudes et des corrélations statistiques, comme le démontre une étude récente de l’Université de Bonn. Les résultats ont maintenant été publiés dans la revue Motifs.

Les grands modèles de langage sont souvent étonnamment bons dans ce qu'ils font, qu'il s'agisse de prouver des théorèmes mathématiques, de composer de la musique ou de rédiger des slogans publicitaires. Mais comment arrivent-ils à leurs résultats ? Comprennent-ils réellement ce qui constitue une symphonie ou une bonne blague ? Il n'est pas si facile de répondre à cette question. « Tous les modèles linguistiques sont une boîte noire », souligne le professeur Jürgen Bajorath. « Il est difficile de regarder dans leur tête, métaphoriquement parlant. »

C’est exactement ce que Bajorath, chercheur en cheminformatique à l’Institut Lamarr pour l’apprentissage automatique et l’intelligence artificielle de l’Université de Bonn, a tenté de faire. Plus précisément, lui et son équipe se sont concentrés sur une forme particulière d’algorithme d’IA : le transformateur CLM.

Ce modèle fonctionne de manière similaire à ChatGPT, Google Gemini et « Grok » d'Elon Musk, qui sont entraînés à l'aide de grandes quantités de texte, leur permettant de générer des phrases de manière indépendante. Les CLM, en revanche, reposent généralement sur beaucoup moins de données. Ils acquièrent leurs connaissances à partir de représentations et de relations moléculaires, par exemple les chaînes dites SMILES. Ce sont des chaînes de caractères qui représentent les molécules et leur structure sous la forme d'une séquence de lettres et de symboles.

Manipulation systématique des données d'entraînement

Dans la recherche pharmaceutique, les scientifiques tentent souvent d’identifier des substances susceptibles d’inhiber certaines enzymes ou de bloquer des récepteurs. Les CLM peuvent être utilisés pour prédire des molécules actives sur la base des séquences d’acides aminés des protéines cibles. « Nous avons utilisé la conception moléculaire basée sur les séquences comme système de test pour mieux comprendre comment les transformateurs parviennent à leurs prédictions », explique Jannik Roth, doctorant travaillant avec Bajorath.

« Après la phase d'entraînement, si vous introduisez une nouvelle enzyme dans un tel modèle, elle peut produire un composé capable de l'inhiber. Mais cela signifie-t-il que l'IA a appris les principes biochimiques derrière une telle inhibition ? »

Les CLM sont formés à l'aide de paires de séquences d'acides aminés de protéines cibles et de leurs composés actifs connus respectifs. Afin de répondre à leur question de recherche, les scientifiques ont systématiquement manipulé les données de formation.

« Par exemple, nous avons initialement nourri uniquement les familles d'enzymes spécifiques au modèle et leurs inhibiteurs », explique Bajorath. « Lorsque nous avons ensuite utilisé une nouvelle enzyme de la même famille à des fins de tests, l'algorithme a en fait suggéré un inhibiteur plausible. »

Cependant, la situation était différente lorsque les chercheurs ont utilisé dans le test une enzyme d'une autre famille, c'est-à-dire une enzyme qui remplit une fonction différente dans l'organisme. Dans ce cas, le CLM n’a pas réussi à prédire correctement les composés actifs.

Règle empirique statistique

« Cela suggère que le modèle n'a pas appris les principes chimiques généralement applicables, c'est-à-dire le fonctionnement chimique habituel de l'inhibition enzymatique », explique le scientifique. Au lieu de cela, les suggestions sont basées uniquement sur des corrélations statistiques, c'est-à-dire des tendances dans les données. Par exemple, si la nouvelle enzyme ressemble à une séquence d’entraînement, un inhibiteur similaire sera probablement actif. En d’autres termes, des enzymes similaires ont tendance à interagir avec des composés similaires.

« Une telle règle empirique basée sur une similarité statistiquement détectable n'est pas nécessairement une mauvaise chose », déclare Bajorath, qui dirige le domaine « IA dans les sciences de la vie et la santé » à l'Institut Lamarr. « Après tout, cela peut également aider à identifier de nouvelles applications pour les substances actives existantes. »

Cependant, les modèles utilisés dans l’étude manquaient de connaissances biochimiques pour estimer les similitudes. Ils considéraient que les enzymes (ou les récepteurs et autres protéines) étaient similaires s'ils correspondaient à 50 à 60 % de leur séquence d'acides aminés et, par conséquent, suggéraient des inhibiteurs similaires. Les chercheurs pouvaient randomiser et brouiller les séquences à volonté, à condition de conserver suffisamment d’acides aminés d’origine.

Cependant, seules des parties très spécifiques d’une enzyme sont souvent nécessaires pour accomplir sa tâche. Un seul changement d’acide aminé dans une telle région peut rendre une enzyme dysfonctionnelle. D'autres domaines sont plus importants pour l'intégrité structurelle et moins pertinents pour des fonctions spécifiques. « Au cours de leur formation, les modèles n'ont pas appris à faire la distinction entre les parties de séquence fonctionnellement importantes et sans importance », explique Bajorath.

Les modèles répètent simplement ce qu'ils ont lu auparavant

Les résultats de l'étude montrent donc que les CLM de transformateur formés pour la conception de composés basés sur la séquence manquent de compréhension chimique plus approfondie, du moins pour ce système de test. En d’autres termes, ils se contentent de récapituler, avec de légères variantes, ce qu’ils avaient déjà retenu dans un contexte similaire à un moment donné.

« Cela ne veut pas dire qu'ils ne conviennent pas à la recherche sur les médicaments », explique Bajorath. « Il est fort possible qu'ils suggèrent des médicaments qui bloquent certains récepteurs ou inhibent des enzymes. »

Cependant, ce n’est certainement pas parce qu’ils comprennent si bien la chimie, mais parce qu’ils reconnaissent des similitudes dans les représentations moléculaires basées sur des textes et des corrélations statistiques qui nous restent cachées. Cela ne discrédite pas leurs résultats. Il ne faut cependant pas non plus les surinterpréter.

Les modèles de langage chimique n'ont pas besoin de comprendre la chimie, démontre une étude

Manipulation systématique des données d'entraînement

Règle empirique statistique

Les modèles répètent simplement ce qu'ils ont lu auparavant

Même des niveaux de pollution atmosphérique « sûrs » peuvent affecter la santé cardiaque

Une expérience bouleverse les croyances sur le comportement réel des électrons dans la matière dense et chaude

Le « petit cerveau » pourrait donner un grand coup de pouce à l’esprit vieillissant

Un modèle minimal de la façon dont une cellule prend forme de l'intérieur

Les concombres de mer abritent des tissus « zombies » qui ne mourront pas

Les vibrations chaotiques des polymères peuvent débloquer des isolants thermiques plus solides et flexibles

Les isotopes du bore révèlent comment le verre des déchets nucléaires se dissout lentement au fil du temps

Les dégâts causés par les tremblements de terre à des profondeurs plus profondes se produisent longtemps après l'activité initiale, selon une étude

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Le gaz, longtemps négligé, apparaît comme un facteur caché de la pollution de l'air urbain

Le prince William fête ses 44 ans : Kate Middleton, Prince George, la princesse Charlotte et le prince Louis postent un émouvant hommage

Même des niveaux de pollution atmosphérique « sûrs » peuvent affecter la santé cardiaque

Titan et Pluton présentent la même caractéristique spectrale mystérieuse, et les chercheurs ne parviennent pas à déterminer son origine

Une expérience bouleverse les croyances sur le comportement réel des électrons dans la matière dense et chaude

La boue ancienne extraite de la glace de l'Antarctique contient des indices sur la future élévation du niveau de la mer

La K-Pop est le moteur de la culture mondiale. Et Lisa est un nouveau type de superstar

Le « petit cerveau » pourrait donner un grand coup de pouce à l’esprit vieillissant

Test sur le terrain dans le désert avec un prototype de rover avancé de la NASA

Un modèle minimal de la façon dont une cellule prend forme de l'intérieur

Les vagues de chaleur marines dans l'Arctique se multiplient depuis les années 1980, avec un événement record d'une durée de 480 jours

L’enquête sur le prétendu stratagème de vente de dossiers médicaux de Kate Middleton se termine par une « mise en garde formelle »

Les concombres de mer abritent des tissus « zombies » qui ne mourront pas

Manipulation systématique des données d'entraînement

Règle empirique statistique

Les modèles répètent simplement ce qu'ils ont lu auparavant

Avant de partir, restons en contact !