Les molécules ouvertes 2025, un ensemble de données sans précédent de simulations moléculaires, ont été libérées dans la communauté scientifique, ouvrant la voie au développement d'outils d'apprentissage automatique qui peuvent modéliser avec précision les réactions chimiques de la complexité du monde réel pour la première fois.
Cette vaste ressource, produite par une collaboration co-dirigée par Meta et le Lawrence Berkeley National Laboratory (Berkeley Lab) du Département de l'énergie, pourrait transformer la recherche pour les technologies de science, de biologie et d'énergie des matériaux.
« Je pense que cela va révolutionner la façon dont les gens font des simulations atomistiques pour la chimie, et pouvoir dire qu'avec la confiance, c'est tellement cool », a déclaré le co-lancé du projet Samuel Blau, chimiste et chercheur au Berkeley Lab. Ses collègues de l'équipe proviennent de six universités, de deux entreprises et de deux laboratoires nationaux.
« Nous étions super excités de travailler avec la communauté pour construire cet ensemble de données et voir où cela nous mènera dans la création de nouveaux modèles d'IA », a déclaré Larry Zitnick, directeur de recherche du laboratoire fondamental de la recherche sur l'IA (FAIR) de Meta.
Les molécules ouvertes 2025, ou OMOL25, sont une collection de plus de 100 millions d'instantanés moléculaires 3D dont les propriétés ont été calculées avec la théorie fonctionnelle de la densité (DFT).
Le DFT est un outil incroyablement puissant pour modéliser des détails précis des interactions atomiques, permettant aux scientifiques de prédire la force sur chaque atome et l'énergie du système, qui dictent à leur tour le mouvement moléculaire et les réactions chimiques qui déterminent les propriétés à plus grande échelle, telles que la façon dont l'électrolyte réagit dans une batterie ou comment un médicament se lie à un récepteur pour éviter la maladie.
La capacité de simuler de grands systèmes avec une précision au niveau du DFT aiderait les scientifiques à concevoir rapidement de nouvelles technologies de stockage d'énergie, de nouveaux médicaments et au-delà. Mais les calculs de DFT exigent beaucoup de puissance de calcul, et leur appétit augmente considérablement à mesure que les molécules impliquées deviennent plus grandes, ce qui rend impossible de modéliser les systèmes moléculaires scientifiquement pertinents et les réactions de la complexité du monde réel, même avec les plus grandes ressources de calcul.
Les progrès récents de l'apprentissage automatique offrent un moyen de surmonter ces limites. Les potentiels interatomiques (MLIPS) appris à machine formés formés sur les données DFT peuvent fournir des prédictions du même calibre 10 000 fois plus rapidement, déverrouillant la capacité de simuler les grands systèmes atomiques qui ont toujours été hors de portée, tout en fonctionnant sur des systèmes informatiques standard.
Cependant, l'utilité d'un MLIP dépend de la quantité, de la qualité et de l'étendue des données sur lesquelles elle a été formée. Entrez OMOL25 – L'ensemble de données moléculaire le plus chimiquement diversifié pour la formation des Mlips jamais construits.
Construire une nouvelle ressource
La création d'OMOL25 a nécessité une quantité exceptionnelle de puissance de calcul et d'expertise DFT. L'équipe équitable a utilisé le réseau mondial massif de Meta de ressources informatiques pour gérer les millions de simulations DFT, profitant des périodes de bande passante de rechange lorsqu'une partie du monde dormait au lieu de parcourir Instagram et Facebook.
Les ensembles de données moléculaires passés étaient limités aux simulations avec 20 à 30 atomes totaux en moyenne et seulement une poignée d'éléments bien élevés.
Les configurations dans OMOL25 sont 10 fois plus grandes et sensiblement plus complexes, avec jusqu'à 350 atomes de la plupart des tableaux périodiques, y compris des éléments lourds et des métaux, qui sont difficiles à simuler avec précision. Les points de données capturent une vaste gamme d'interactions et de dynamique moléculaire interne impliquant à la fois des molécules organiques et inorganiques.
« OMOL25 a coûté six milliards d'heures de processeur, plus de 10 fois plus que tout ensemble de données précédent. Pour mettre cette demande de calcul en perspective, il vous faudrait plus de 50 ans pour exécuter ces calculs avec 1 000 ordinateurs portables typiques », a déclaré Blau.
Un bond en avant dans les modèles d'IA
Les scientifiques du monde entier peuvent désormais commencer à former leurs propres MLIP sur OMOL25. Ils peuvent également utiliser le modèle universel à accès ouvert de Fair Lab, également publié aujourd'hui. Le modèle universel a été formé sur OMOL25 et les autres ensembles de données open source de Fair Lab – qu'ils publient depuis 2020 – et sont conçus pour fonctionner « hors de la boîte » pour de nombreuses applications.
Cependant, le modèle universel et tout autre MLIP formé avec l'ensemble de données devraient s'améliorer au fil du temps, car les chercheurs apprennent à tirer le meilleur parti de la grande quantité de données à portée de main.
Pour mesurer et suivre les performances du modèle, la collaboration a fourni des évaluations, qui sont des ensembles de défis qui analysent la façon dont un modèle peut effectuer avec précision les tâches utiles. L'équipe s'est efforcée de développer des évaluations exceptionnellement approfondies pour donner aux collègues des chercheurs plus de confiance dans les capacités des MLIP formées sur l'ensemble de données.
« Une fois que vous avez atteint la chimie comme les liaisons atomiques qui se brisent et la réforme et les molécules avec des charges et des tours variables, les chercheurs vont être à juste titre sceptiques quant à tout outil ML », a déclaré Blau, qui a également joué un rôle important dans cette composante du projet.
Les évaluations stimulent également l'innovation grâce à une concurrence amicale, car les résultats sont classés publiquement. Les utilisateurs potentiels peuvent voir lesquels se dérouler en douceur et les développeurs peuvent voir comment leur modèle s'accumule aux autres.
« De meilleures références et évaluations ont été essentielles pour les progrès et progressive de nombreux domaines de la ML », a ajouté Aditi Krishnapriyan, membre de l'équipe OMOL25, de la division des mathématiques appliqués et de la recherche en matière de recherche en matière de recherche et d'ordinateur adjointe de Berkeley Lab. Krishnapriyan a aidé dans les évaluations et développé un sous-ensemble des simulations chimiques.
« La confiance est particulièrement critique ici parce que les scientifiques doivent s'appuyer sur ces modèles pour produire des résultats physiquement solides qui se traduisent et peuvent être utilisés pour la recherche scientifique », a déclaré Krishnapriyan.
Par la communauté, pour la communauté
OMOL25 a été créé par des scientifiques pour combler un besoin non satisfait de leur communauté, et l'éthique de la collaboration est tissée dans tous les aspects du projet.
Pour organiser le contenu dans OMOL25, l'équipe a commencé avec des ensembles de données passés fabriqués par d'autres, car ceux-ci représentent des configurations et des réactions moléculaires qui sont importantes pour les chercheurs dans différentes spécialités de chimie. Ensuite, ils ont effectué des simulations plus sophistiquées sur ces instantanés en utilisant leurs capacités de DFT avancées.
Ensuite, ils ont cherché à voir quels principaux types de chimie n'avaient pas été capturés auparavant et ont essayé de combler l'écart.
Les trois quarts de l'ensemble de données sont composés de ce nouveau contenu, divisé en trois principaux domaines d'intervention: les biomolécules, les électrolytes et les complexes métalliques (molécules disposées autour d'un ion métallique central). Il y a encore un besoin d'instantanés impliquant des polymères – des molécules élantes faites d'unités répétitives appelées monomères.
Cela sera abordé par les prochaines données Open Polymer, un projet complémentaire qui comprend également des collaborateurs du Lawrence Livermore National Laboratory.
L'équipe OMOL25 elle-même a été rassemblée par les connexions de branchement de la communauté STEM qui couvrent le monde universitaire et l'industrie. Blau et le co-leader Brandon Wood, chercheur à Fair, se sont réunis tout en travaillant dans le laboratoire de Kristin Persson, un chercheur de Berkeley Lab et UC Berkeley qui dirige le projet de matériaux. Wood, Blau et Larry Zitnick, le directeur de la recherche sur la chimie, ont uni leurs forces sur le projet OMOL25 à l'automne 2023.
Ensemble, ils ont recruté des scientifiques qu'ils ont admirés à UC Berkeley, Carnegie Mellon, Université de New York, Université de Princeton, Université de Stanford, Université de Cambridge, Los Alamos National Laboratory et Genentech.
« Cet ensemble de données ouvert est le résultat d'un effort d'équipe fantastique, et nous avons hâte de voir comment la communauté se exploite pour explorer les nouvelles directions dans la modélisation d'IA », a déclaré Wood.
« C'était vraiment excitant de se réunir pour faire avancer les capacités disponibles pour l'humanité », a ajouté Blau.


