En utilisant l'apprentissage automatique, les ingénieurs chimiques du MIT ont créé un modèle de calcul qui peut prédire à quel point toute molécule donnée se dissout dans un solvant organique – une étape clé dans la synthèse de presque tous les produits pharmaceutiques. Ce type de prédiction pourrait faciliter le développement de nouvelles façons de produire des médicaments et d'autres molécules utiles.
Le nouveau modèle, qui prédit la quantité de soluté se dissoudre dans un solvant particulier, devrait aider les chimistes à choisir le bon solvant pour une réaction donnée dans leur synthèse, selon les chercheurs. Les solvants organiques courants comprennent l'éthanol et l'acétone, et il y en a des centaines d'autres qui peuvent également être utilisés dans les réactions chimiques.
« La prévision de la solubilité est vraiment une étape limitant la planification synthétique et la fabrication de produits chimiques, en particulier les médicaments, il y a donc eu un intérêt de longue date à pouvoir faire de meilleures prédictions de la solubilité », explique Lucas Attia, étudiant diplômé du MIT et l'un des principaux auteurs de la nouvelle étude.
Les chercheurs ont rendu leur modèle disponible gratuitement, et de nombreuses entreprises et laboratoires ont déjà commencé à l'utiliser. Le modèle pourrait être particulièrement utile pour identifier les solvants moins dangereux que certains des solvants industriels les plus couramment utilisés, selon les chercheurs.
« Il y a des solvants qui sont connus pour dissoudre la plupart des choses. Ils sont vraiment utiles, mais ils sont dommageables à l'environnement, et ils dommagent les gens, de nombreuses entreprises exigent que vous deviez minimiser la quantité de ces solvants que vous utilisez », explique Jackson Burns, un étudiant diplômé du MIT qui est également un auteur principal du journal. « Notre modèle est extrêmement utile pour pouvoir identifier le meilleur solvant suivant, ce qui, espérons-le, est beaucoup moins dommageable pour l'environnement. »
William Green, professeur Hoyt Hottel en génie chimique et directeur de la MIT Energy Initiative, est l'auteur principal de l'étude, qui est publiée aujourd'hui dans Communications de la nature. Patrick Doyle, le professeur de génie chimique de Robert T. Haslam, est également auteur du journal.
Résolution de la solubilité
Le nouveau modèle est né d'un projet sur lequel Attia et Burns ont travaillé ensemble dans un cours du MIT pour appliquer l'apprentissage automatique aux problèmes de génie chimique. Traditionnellement, les chimistes ont prédit la solubilité avec un outil connu sous le nom de modèle de solvatation d'Abraham, qui peut être utilisé pour estimer la solubilité globale d'une molécule en additionnant les contributions des structures chimiques au sein de la molécule. Bien que ces prédictions soient utiles, leur précision est limitée.
Au cours des dernières années, les chercheurs ont commencé à utiliser l'apprentissage automatique pour essayer de faire des prévisions de solubilité plus précises. Avant que Burns et Attia ne commencent à travailler sur leur nouveau modèle, le modèle de pointe pour prédire la solubilité était un modèle développé dans le laboratoire de Green en 2022.
Ce modèle, connu sous le nom de solprop, fonctionne en prédisant un ensemble de propriétés connexes et en les combinant, en utilisant la thermodynamique, pour finalement prédire la solubilité. Cependant, le modèle a du mal à prédire la solubilité pour les solutés qu'il n'a jamais vus auparavant.
« Pour les pipelines de découverte de médicaments et de produits chimiques où vous développez une nouvelle molécule, vous voulez être en mesure de prédire à l'avance à quoi ressemble sa solubilité », explique Attia.
Une partie de la raison pour laquelle les modèles de solubilité existants n'ont pas bien fonctionné est qu'il n'y avait pas un ensemble de données complet sur lequel les former. Cependant, en 2023, un nouvel ensemble de données appelé BigSoldB a été publié, qui a compilé les données de près de 800 articles publiés, y compris des informations sur la solubilité pour environ 800 molécules dissoutes dans plus de 100 solvants organiques qui sont couramment utilisés dans la chimie synthétique.
Attia et Burns ont décidé d'essayer de former deux types de modèles différents sur ces données. Ces deux modèles représentent les structures chimiques des molécules en utilisant des représentations numériques appelées intégres, qui intègrent des informations telles que le nombre d'atomes dans une molécule et quels atomes sont liés aux autres atomes. Les modèles peuvent ensuite utiliser ces représentations pour prédire une variété de propriétés chimiques.
L'un des modèles utilisés dans cette étude, connu sous le nom de Fastprop et développé par Burns et d'autres dans le laboratoire de Green, intègre des «intérêts statiques». Cela signifie que le modèle connaît déjà l'incorporation pour chaque molécule avant de commencer à faire n'importe quelle sorte d'analyse.
L'autre modèle, ChemProp, apprend une intégration pour chaque molécule pendant la formation, en même temps qu'il apprend à associer les caractéristiques de l'incorporation à un trait tel que la solubilité. Ce modèle, développé dans plusieurs laboratoires du MIT, a déjà été utilisé pour des tâches telles que la découverte d'antibiotiques, la conception des nanoparticules lipidiques et la prédiction des taux de réaction chimique.
Les chercheurs ont formé les deux types de modèles sur plus de 40 000 points de données de BigSoldB, y compris des informations sur les effets de la température, qui joue un rôle important dans la solubilité. Ensuite, ils ont testé les modèles sur environ 1 000 solutés qui avaient été cachés aux données de formation.
Ils ont constaté que les prédictions des modèles étaient deux à trois fois plus précises que celles de Solprop, le meilleur modèle précédent et les nouveaux modèles étaient particulièrement précis pour prédire les variations de la solubilité dues à la température.
« Pouvoir reproduire avec précision ces petites variations de solubilité en raison de la température, même lorsque le bruit expérimental global est très important, était un signe vraiment positif que le réseau avait correctement appris une fonction de prédiction de solubilité sous-jacente », explique Burns.
Prédictions précises
Les chercheurs s'attendaient à ce que le modèle basé sur ChemProp, qui est en mesure d'apprendre de nouvelles représentations au fur et à mesure, serait en mesure de faire des prédictions plus précises. Cependant, à leur grande surprise, ils ont constaté que les deux modèles se sont produits essentiellement de la même manière. Cela suggère que la principale limitation de leurs performances est la qualité des données, et que les modèles fonctionnent ainsi que théoriquement possibles sur la base des données qu'ils utilisent, selon les chercheurs.
« ChemProp devrait toujours surpasser toute incorporation statique lorsque vous avez suffisamment de données », explique Burns. « Nous avons été époustouflés pour voir que les incorporations statiques et apprises étaient statistiquement indiscernables dans les performances de tous les différents sous-ensembles, ce qui nous indique que les limitations de données qui sont présentes dans cet espace ont dominé les performances du modèle. »
Les modèles pourraient devenir plus précis, selon les chercheurs, si de meilleures données de formation et de test étaient disponibles – idéalement, les données obtenues par une personne ou un groupe de personnes toutes formées pour effectuer les expériences de la même manière.
« L'une des grandes limites de l'utilisation de ces types d'ensembles de données compilés est que différents laboratoires utilisent différentes méthodes et conditions expérimentales lorsqu'ils effectuent des tests de solubilité. Cela contribue à cette variabilité entre différents ensembles de données », explique Attia.
Parce que le modèle basé sur Fastprop rend ses prédictions plus rapidement et a un code qui est plus facile à adapter pour les autres utilisateurs, les chercheurs ont décidé de le faire, connu sous le nom de FastSolv, disponible au public. Plusieurs sociétés pharmaceutiques ont déjà commencé à l'utiliser.
« Il existe des applications dans tout le pipeline de découverte de médicaments », explique Burns. « Nous sommes également ravis de voir, en dehors de la formulation et de la découverte de médicaments, où les gens peuvent utiliser ce modèle. »


