L’intelligence artificielle (IA) est de plus en plus utilisée en génomique pour passer au crible de grandes quantités de données génomiques afin d’identifier des cibles thérapeutiques potentielles, malgré la nature opaque de la prise de décision par l’IA. Pour résoudre ce problème, les scientifiques du Cold Spring Harbor Laboratory ont développé SQUID (Surrogate Quantitative Interpretability for Deepnets), un outil conçu pour améliorer l’interprétabilité des modèles d’IA en génomique.
SQUID, développé par des scientifiques du Cold Spring Harbor Laboratory, améliore l'interprétabilité de l'IA en génomique en utilisant une vaste bibliothèque de ADN variantes et le programme MAVE-NN pour analyser leurs effets.
Cet outil aide les chercheurs à faire des prédictions génétiques plus précises et soutient le développement d’hypothèses pour une meilleure compréhension des fonctions génomiques.
SQUID Pries ouvre la boîte noire de l'IA
L’intelligence artificielle continue de se frayer un chemin dans de nombreux aspects de nos vies. Mais qu’en est-il de la biologie, l’étude de la vie elle-même ? L’IA peut passer au crible des centaines de milliers de données génomiques pour identifier de nouvelles cibles thérapeutiques potentielles. Bien que ces connaissances génomiques puissent sembler utiles, les scientifiques ne savent pas exactement comment les modèles d’IA actuels parviennent à leurs conclusions. Aujourd’hui, un nouveau système nommé SQUID arrive sur les lieux, armé pour ouvrir la boîte noire de la logique interne trouble de l’IA.

Une illustration décrivant le pipeline informatique SQUID. Crédit : Koo et Kinney Labs / Laboratoire de Cold Spring Harbor
SQUID : améliorer l'interprétabilité de l'IA
SQUID, abréviation de Surrogate Quantitative Interpretability for Deepnets, est un outil informatique créé par les scientifiques du Cold Spring Harbor Laboratory (CSHL). Il est conçu pour aider à interpréter la manière dont les modèles d’IA analysent le génome. Comparé à d’autres outils d’analyse, SQUID est plus cohérent, réduit le bruit de fond et peut conduire à des prédictions plus précises sur les effets des mutations génétiques.
Comment ça marche tellement mieux ? Selon Peter Koo, professeur adjoint au CSHL, la clé réside dans la formation spécialisée de SQUID.
« Les outils que les gens utilisent pour essayer de comprendre ces modèles proviennent en grande partie d’autres domaines comme la vision par ordinateur ou le traitement du langage naturel. Bien qu’ils puissent être utiles, ils ne sont pas optimaux pour la génomique. Ce que nous avons fait avec SQUID, c'est exploiter des décennies de connaissances en génétique quantitative pour nous aider à comprendre ce que ces réseaux neuronaux profonds apprennent », explique Koo.

Evan E. Seitz, l'auteur principal de cette étude, est postdoctorant dans les laboratoires Kinney et Koo. Crédit : Laboratoire de Cold Spring Harbor
SQUID fonctionne en générant d’abord une bibliothèque de plus de 100 000 séquences d’ADN variantes. Il analyse ensuite la bibliothèque de mutations et leurs effets à l'aide d'un programme appelé MAVE-NN (Multiplex Assays of Variant Effects Neural Network). Cet outil permet aux scientifiques de réaliser simultanément des milliers d’expériences virtuelles. En effet, ils peuvent « repérer » les algorithmes derrière les prédictions les plus précises d’une IA donnée. Leur « capture » informatique pourrait ouvrir la voie à des expériences plus ancrées dans la réalité.
L'impact pratique de SQUID
« Les expériences in silico (virtuelles) ne remplacent pas les expériences réelles en laboratoire. Néanmoins, ils peuvent être très instructifs. Ils peuvent aider les scientifiques à formuler des hypothèses sur le fonctionnement d’une région particulière du génome ou sur la manière dont une mutation pourrait avoir un effet cliniquement pertinent », explique Justin Kinney, professeur agrégé au CSHL et co-auteur de l’étude.
Il existe des tonnes de modèles d’IA dans la mer. De plus en plus de personnes entrent dans les eaux chaque jour. Koo, Kinney et leurs collègues espèrent que SQUID aidera les scientifiques à trouver ceux qui répondent le mieux à leurs besoins spécialisés.
Bien que cartographié, le génome humain reste un terrain incroyablement difficile. SQUID pourrait aider les biologistes à naviguer plus efficacement dans le domaine, les rapprochant ainsi des véritables implications médicales de leurs découvertes.
Financement : Fondation Simons, Instituts nationaux de la santéFondation Alfred P. Sloan