Les programmes d’IA de pointe peuvent soutenir le développement de médicaments en prédisant comment les protéines interagissent avec les petites molécules. Cependant, une nouvelle étude menée par des chercheurs de l'Université de Bâle publiée dans Communications naturelles a montré que ces programmes mémorisent uniquement des schémas, plutôt que de comprendre les relations physiques. Ils échouent souvent lorsqu’il s’agit de nouvelles protéines qui seraient particulièrement intéressantes pour des médicaments innovants.
Les protéines jouent un rôle clé non seulement dans l’organisme, mais aussi en médecine : soit elles servent de principes actifs, comme des enzymes ou des anticorps, soit elles constituent des structures cibles pour des médicaments. La première étape du développement de nouvelles thérapies consiste donc généralement à déchiffrer la structure tridimensionnelle des protéines.
Pendant longtemps, l’élucidation des structures protéiques a été une entreprise très complexe, jusqu’à ce que l’apprentissage automatique trouve sa place dans la recherche sur les protéines. Les modèles d’IA portant des noms tels qu’AlphaFold ou RosettaFold ont inauguré une nouvelle ère : ils calculent comment la chaîne d’éléments constitutifs des protéines, appelés acides aminés, se replie en une structure tridimensionnelle. En 2024, les développeurs de ces programmes ont reçu le prix Nobel de chimie.
Taux de réussite suspectement élevé
Les dernières versions de ces programmes vont encore plus loin : elles calculent comment la protéine en question interagit avec une autre molécule – un partenaire d'accueil, ou ligand, comme l'appellent les experts. Il peut s'agir par exemple d'un principe actif pharmaceutique.
« Cette possibilité de prédire la structure des protéines avec un ligand est inestimable pour le développement de médicaments », déclare le professeur Markus Lill de l'Université de Bâle. Avec son équipe du Département des sciences pharmaceutiques, il étudie les méthodes de conception d'ingrédients pharmaceutiques actifs.
Cependant, les taux de réussite apparemment élevés de la prédiction structurelle ont intrigué Lill et son équipe. D’autant plus qu’il n’existe qu’environ 100 000 structures protéiques déjà élucidées ainsi que leurs ligands disponibles pour l’entraînement des modèles d’IA, ce qui est relativement peu comparé à d’autres ensembles de données d’entraînement pour l’IA. « Nous voulions savoir si ces modèles d'IA apprenaient réellement les bases de la chimie physique à l'aide des données d'entraînement et les appliquaient correctement », explique Lill.
Même prédiction pour les sites de liaison considérablement modifiés
Les chercheurs ont modifié la séquence d'acides aminés de centaines d'échantillons de protéines de telle sorte que les sites de liaison de leurs ligands présentaient une répartition de charge complètement différente, voire étaient entièrement bloqués. Néanmoins, les modèles d’IA prédisaient la même structure complexe, comme si la liaison était encore possible. Les chercheurs ont poursuivi une approche similaire avec les ligands : ils les ont modifiés de telle manière qu'ils ne pouvaient plus s'arrimer à la protéine en question. Cela n’a pas non plus gêné les modèles d’IA.
Dans plus de la moitié des cas, les modèles ont prédit la structure comme si les interférences dans la séquence d’acides aminés ne s’étaient jamais produites. « Cela nous montre que même les modèles d'IA les plus avancés ne comprennent pas vraiment pourquoi un médicament se lie à une protéine ; ils reconnaissent seulement des schémas qu'ils ont observés auparavant », explique Lill.
Les protéines inconnues sont particulièrement difficiles
Les modèles d’IA étaient confrontés à des difficultés particulières si les protéines ne présentaient aucune similitude avec les ensembles de données d’entraînement. « Quand ils voient quelque chose de complètement nouveau, ils échouent rapidement, mais c'est précisément là que réside la clé des nouveaux médicaments », souligne Lill.
Les modèles d’IA doivent donc être considérés avec prudence lorsqu’il s’agit de développement de médicaments. Il est important de valider les prédictions des modèles par des expériences ou des analyses assistées par ordinateur qui prennent réellement en compte les propriétés physico-chimiques. Les chercheurs ont également utilisé ces méthodes pour examiner les résultats des modèles d’IA au cours de leur étude.
« La meilleure solution serait d'intégrer les lois physico-chimiques dans les futurs modèles d'IA », explique Lill. Grâce à leurs prédictions structurelles plus réalistes, celles-ci pourraient alors fournir une meilleure base pour le développement de nouveaux médicaments, en particulier pour les structures protéiques jusqu'à présent difficiles à élucider, et ouvriraient la voie à des approches thérapeutiques complètement nouvelles.


