in

Révolutionner la recherche médicale : des scientifiques développent une IA révolutionnaire qui préserve la confidentialité

SciTechDaily

Les chercheurs ont innové avec une méthode d’apprentissage automatique préservant la confidentialité pour la recherche génomique, équilibrant la confidentialité des données avec les performances du modèle d’IA. Leur approche, utilisant un algorithme de brassage décentralisé, présente une efficacité et une sécurité améliorées, soulignant le besoin critique de confidentialité dans l’analyse des données biomédicales. Crédit : 2024 KAUST ; Héno Hwang

Une équipe de recherche de KAUST a créé une méthode d’apprentissage automatique qui utilise un ensemble d’algorithmes axés sur la préservation de la confidentialité. Cette approche s’attaque à un problème critique dans la recherche médicale : tirer parti de l’intelligence artificielle (IA) pour accélérer les découvertes à partir de données génomiques sans compromettre la vie privée des individus.

« Les données omiques contiennent généralement de nombreuses informations privées, telles que l’expression des gènes et la composition cellulaire, qui peuvent souvent être liées à la maladie ou à l’état de santé d’une personne », explique Xin Gao de KAUST. « Les modèles d’IA formés sur ces données – en particulier les modèles d’apprentissage profond – ont le potentiel de conserver des informations privées sur les individus. Notre objectif principal est de trouver un meilleur équilibre entre la préservation de la confidentialité et l’optimisation des performances du modèle.

Techniques traditionnelles de préservation de la vie privée

L’approche traditionnelle pour préserver la confidentialité consiste à chiffrer les données. Cependant, cela nécessite que les données soient déchiffrées pour la formation, ce qui introduit une lourde charge de calcul. Le modèle formé conserve également des informations privées et ne peut donc être utilisé que dans des environnements sécurisés.

Une autre façon de préserver la confidentialité consiste à diviser les données en paquets plus petits et à entraîner le modèle séparément sur chaque paquet à l’aide d’une équipe d’algorithmes de formation locaux, une approche connue sous le nom de formation locale ou d’apprentissage fédéré. Cependant, à elle seule, cette approche peut toujours divulguer des informations privées dans le modèle formé. Une méthode appelée confidentialité différentielle peut être utilisée pour diviser les données de manière à garantir la confidentialité, mais cela aboutit à un modèle « bruyant » qui limite son utilité pour des recherches précises basées sur les gènes.

Améliorer la confidentialité avec une confidentialité différentielle

« En utilisant le cadre de confidentialité différentielle, l’ajout d’un mélangeur peut obtenir de meilleures performances de modèle tout en conservant le même niveau de protection de la vie privée ; mais l’approche précédente consistant à utiliser un mélangeur tiers centralisé introduisait une faille de sécurité critique dans la mesure où le mélangeur pourrait être malhonnête », explique Juexiao Zhou, auteur principal de l’article et titulaire d’un doctorat. étudiant du groupe de Gao. « La principale avancée de notre approche est l’intégration d’un algorithme de brassage décentralisé. » Il explique que le shuffler résout non seulement ce problème de confiance, mais permet également d’obtenir un meilleur compromis entre la préservation de la vie privée et la capacité du modèle, tout en garantissant une parfaite protection de la vie privée.

L’équipe a démontré son approche d’apprentissage automatique préservant la confidentialité (appelée PPML-Omics) en formant trois modèles représentatifs d’apprentissage en profondeur sur trois tâches multi-omiques difficiles. Non seulement PPML-Omics a produit des modèles optimisés avec une plus grande efficacité que d’autres approches, mais il s’est également révélé robuste contre les cyberattaques de pointe.

« Il est important de savoir que les modèles d’apprentissage profond correctement formés possèdent la capacité de conserver des quantités importantes d’informations privées à partir des données de formation, telles que les gènes caractéristiques des patients », explique Gao. « Alors que l’apprentissage profond est de plus en plus utilisé pour analyser les données biologiques et biomédicales, l’importance de la protection de la vie privée est plus grande que jamais. »

SciTechDaily

Nouvelle étude : Faire briller une lumière rouge sur le dos d’une personne pendant 15 minutes peut réduire le taux de sucre dans le sang

SciTechDaily

Défier les lois hydrodynamiques : percer les mystères de la turbulence superfluide