Un nouveau modèle d’IA pour la conception de médicaments intègre davantage la physique dans les prédictions

Lorsque l’apprentissage automatique est utilisé pour suggérer de nouvelles connaissances ou orientations scientifiques potentielles, les algorithmes proposent parfois des solutions qui ne sont pas physiquement valables.

Prenez, par exemple, AlphaFold, le système d’IA qui prédit la manière complexe dont les chaînes d’acides aminés se replieront en structures protéiques 3D. Le système suggère parfois des plis « non physiques » – des configurations invraisemblables sur la base des lois de la physique – en particulier lorsqu'on lui demande de prédire les plis de chaînes qui sont significativement différentes de ses données d'entraînement.

Pour limiter ce type de résultat non physique dans le domaine de la conception de médicaments, Anima Anandkumar, professeur Bren d'informatique et de sciences mathématiques à Caltech, et ses collègues ont introduit un nouveau modèle d'apprentissage automatique appelé NucleusDiff, qui intègre une idée physique simple dans sa formation, améliorant considérablement les performances de l'algorithme.

Anandkumar et ses collègues décrivent NucleusDiff dans un article paru dans le cadre d'un dossier spécial « Machine Learning in Chemistry » publié dans Actes de l'Académie nationale des sciences.

L’objectif de la conception de médicaments basés sur la structure est de produire de petites molécules, appelées ligands, qui se lieront bien à une cible biologique, généralement une protéine, provoquant une sorte de changement d’activité souhaité. Les modèles d’IA de conception de médicaments sont formés sur des ensembles de données contenant des dizaines de milliers d’exemples de tels appariements protéine-ligand ainsi que des informations sur la façon dont ils s’accrochent les uns aux autres, une mesure importante appelée affinité de liaison. Mais surtout, NucleusDiff va encore plus loin.

« Avec l'apprentissage automatique, le modèle apprend déjà de nombreux aspects de ce qui constitue une bonne liaison, et maintenant nous intégrons quelques principes physiques simples pour nous assurer d'exclure toutes les choses non physiques », explique Anandkumar.

Dans le cas de NucleusDiff, le modèle garantit que les atomes restent à une distance appropriée les uns des autres, en tenant compte de concepts physiques tels que les forces répulsives qui empêchent les atomes de se chevaucher ou d'entrer en collision.

« Nous avons une belle théorie physique derrière l'algorithme, mais elle est également intuitive », explique Anandkumar. « Étonnamment, sans ces contraintes, tous ces modèles d'IA ont tendance à prédire qu'il y a collision, que les atomes se rapprochent trop. En ajoutant de la physique simple, nous avons augmenté la précision du modèle. »

Plutôt que de prendre en compte la distance entre chaque paire d'atomes d'une molécule (une tâche dont le coût de calcul serait prohibitif), NucleusDiff estime une variété, ou enveloppe, une estimation approximative de la distribution des atomes et de l'emplacement probable des électrons dans la molécule. Sur ce collecteur, il établit ensuite des points d'ancrage principaux à surveiller, en s'assurant que les atomes ne se rapprochent jamais trop les uns des autres.

L’équipe a formé NucleusDiff sur un ensemble de données de formation appelé CrossDocked2020, qui comprend environ 100 000 complexes de liaison protéine-ligand. Ils l’ont testé sur 100 de ces complexes et ont constaté qu’il surpassait considérablement les modèles de pointe en termes d’affinité de liaison tout en réduisant le nombre de collisions atomiques à presque zéro.

Ensuite, les chercheurs ont utilisé le nouveau modèle pour prédire les affinités de liaison d’une molécule plus récente qui n’était pas incluse dans l’ensemble de données de formation : la protéase 3CL cible thérapeutique du COVID-19. Encore une fois, NucleusDiff a montré une précision accrue et une réduction des collisions atomiques jusqu'à deux tiers par rapport aux autres modèles leaders.

Ce travail s'inscrit dans le cadre d'une initiative plus large menée sur le campus par Anandkumar et d'autres, à travers une initiative appelée AI4Science, visant à intégrer davantage de physique dans des modèles d'IA basés sur les données et conçus pour une variété de sujets, de la prévision climatique à la robotique et de la sismologie à la modélisation astrophysique.

« Si nous nous appuyons uniquement sur les données d'entraînement, nous ne nous attendons pas à ce que l'apprentissage automatique fonctionne correctement sur des exemples très différents des données d'entraînement », explique Anandkumar.

En fait, dit-elle, c'est un principe standard de l'apprentissage automatique que les résultats relèvent généralement du domaine des exemples fournis dans les données de formation. Mais dans de nombreux domaines scientifiques comme la conception de médicaments, les chercheurs recherchent de nouveaux résultats (par exemple de nouvelles molécules).

« Nous constatons que de nombreux systèmes d'apprentissage automatique échouent à produire des résultats précis sur de nouveaux exemples différents des données d'entraînement, mais en intégrant la physique, nous pouvons rendre l'apprentissage automatique plus fiable et également bien mieux fonctionner », explique Anandkumar.

Un nouveau modèle d’IA pour la conception de médicaments intègre davantage la physique dans les prédictions

Questions et réponses : le calcul politique (et les calculs réels) du gerrymandering

Un appareil quantique de la taille d'un pamplemousse a cartographié le champ magnétique terrestre depuis l'espace

Une méthode mécanique ouvre la voie au nettoyage des eaux usées grâce à la lumière du soleil

Un damier magnétique sépare les microparticules par taille et les envoie sur différents chemins

Un cadre théorique peut prédire le comportement des réseaux complexes

25 personnes ont appris à voler avec des ailes virtuelles. Voici comment le cerveau a changé

Des preuves fondées sur des données à long terme révèlent une escalade des précipitations extrêmes dans les contreforts urbanisés de l’Himalaya

Comment l’IA peut améliorer les prévisions des ondes de tempête pour aider à sauver des vies

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Des messagers cosmiques à très haute énergie pourraient transporter des secrets ultra-lourds

Comment les arbres dans les zones urbaines sont essentiels au refroidissement d’un monde plus chaud

Questions et réponses : le calcul politique (et les calculs réels) du gerrymandering

Exclusif : Jane Fonda fait appel à Bette Midler, Patti Smith et à d'autres stars pour lutter contre l'autoritarisme lors du concert de juin

Le retour curieux, inconfortable et peut-être inévitable de Louis CK

Un appareil quantique de la taille d'un pamplemousse a cartographié le champ magnétique terrestre depuis l'espace

Une méthode mécanique ouvre la voie au nettoyage des eaux usées grâce à la lumière du soleil

Les pales du rotor d'un hélicoptère Mars de nouvelle génération dépassent Mach 1

Un damier magnétique sépare les microparticules par taille et les envoie sur différents chemins

Un capteur portable détecte les PFAS dans l'eau sur site, réduisant ainsi le besoin de tests de laboratoire coûteux

Un cadre théorique peut prédire le comportement des réseaux complexes

La référence historique clé derrière le look trompeusement simple du Met Gala 2026 de Charli XCX

25 personnes ont appris à voler avec des ailes virtuelles. Voici comment le cerveau a changé

Exportation sous-glaciaire de CH₄ de la calotte glaciaire du Groenland liée à une période chaude du milieu de l'Holocène

Avant de partir, restons en contact !