Les scientifiques du laboratoire du Dr Tomáš Pluskal de l'IOCB Prague aident les collègues du monde entier à identifier les composés inconnus. Ils ont créé une vaste bibliothèque appelée MSnLIB, qui contient plusieurs millions d'enregistrements montrant comment les petites molécules « se séparent » lorsqu'elles sont mesurées par spectrométrie de masse.
Jusqu'à présent, les bases de données comparables ne se sont développées que très lentement, mais grâce à une nouvelle approche développée à IOCB Prague, des données sur des molécules inconnues peuvent désormais être obtenues en quelques minutes.
Cela ouvre le potentiel de découverte de médicaments plus rapide, une meilleure surveillance des substances chimiques dans l'environnement et d'autres progrès de l'intelligence artificielle pour la biomédecine.
Un article sur la bibliothèque a été publié dans la revue Méthodes de nature.
La spectrométrie de masse révèle la composition des substances chimiques et est un outil clé en médecine, pharmacie et recherche environnementale. L'instrument brise un composé en parties plus petites, et à partir de ces fragments, les scientifiques déterminent la structure de la molécule d'origine.
Les spectres de fragment, qui peuvent être imaginés comme une empreinte digitale unique à chaque substance, sont comparés aux spectres déjà connus stockés dans les bibliothèques. Cependant, les bases de données existantes n'ont couvert qu'un nombre limité de composés connus, ce qui rend la recherche beaucoup plus difficile.
Pluskal et son équipe ont fait avancer le développement de bibliothèques spectrales. À l'époque, ils ont préparé leur étude pour Méthodes de natureils avaient compilé un catalogue de trente mille petites molécules. Pour ceux-ci, ils ont enregistré deux millions de spectres de haute qualité, et ils ne se sont pas contentés d'une image approximative.
Grâce à une fragmentation à plusieurs étages (MSn), c'est-à-dire la rupture répétée des molécules, ils ont obtenu une vue plus détaillée de leur structure interne. Un tel ensemble de données complet est disponible pour la première fois pour le monde scientifique.
Pluskal explique: « Au cours des vingt années où j'ai travaillé dans ce domaine, les bibliothèques spectrales n'ont pas beaucoup élargi. Nous avons réussi à changer cette pratique et créé la plus grande base de données actuellement en existence. De plus, nous l'avons mis ouvertement à la disposition de la communauté scientifique mondiale. »
Les chercheurs ont également considérablement accéléré l'analyse elle-même. Ils peuvent mesurer dix composés à la fois, et l'ensemble du processus ne prend qu'une minute et demie. Étant donné que l'équipe de Pluskal est exceptionnellement bien connue et active dans la communauté scientifique mondiale, ils ont reçu des milliers de composés en tant que cadeaux des entreprises et des institutions.
« Depuis la rédaction de l'article dans Méthodes de naturenous avons avancé davantage. Jusqu'à présent, nous avons traité environ 70 000 composés et nous avons une autre analyse en attente de 150 000. Nous continuons à télécharger des données en ligne, et d'ici la fin de l'année, nous aimerions atteindre 200 000 composés mesurés. C'est environ 10 fois plus que ce qui a été disponible au cours des 20 dernières années « , explique le premier auteur de l'article, le Dr Corinna Brungs.
Pluskal et ses collègues utilisent également l'énorme quantité de nouvelles données pour améliorer les algorithmes d'IA qui reconnaissent de manière autonome des substances chimiques inconnues – des métabolites du corps humain aux composés des plantes et des micro-organismes.
Les scientifiques « nourrissent » le modèle d'apprentissage automatique avec des données de la bibliothèque chimique. Plus il reçoit de données, plus le modèle peut prédire avec précision, en fonction du spectre fourni, à quoi pourrait ressembler la molécule derrière le spectre.
La bibliothèque spectrale a été créée à l'aide du logiciel open source « MZMine », qui a permis un traitement automatisé d'un grand nombre de mesures. En conséquence, la ressource est non seulement étendue mais aussi facilement utilisable pour de nouveaux projets scientifiques dans le monde.


