Une étude de l'École de médecine Icahn du Mont Sinaï indique que les grands modèles de langage actuels ne sont pas encore efficaces pour le codage médical, nécessitant un développement plus approfondi et des tests rigoureux avant la mise en œuvre clinique. Crédit : Issues.fr.com
La recherche révèle ses limites en matière de codage médical.
Des chercheurs de l’École de médecine Icahn du Mont Sinaï ont découvert que les systèmes d’intelligence artificielle de pointe, en particulier les grands modèles de langage (LLM), sont médiocres en matière de codage médical. Leur étude, récemment publiée dans le NEJM IAsouligne la nécessité d'affiner et de valider ces technologies avant d'envisager une mise en œuvre clinique.
L'étude a extrait une liste de plus de 27 000 codes uniques de diagnostic et de procédure issus de 12 mois de soins de routine dans le système de santé du Mont Sinaï, tout en excluant les données identifiables des patients. À l’aide de la description de chaque code, les chercheurs ont incité les modèles d’OpenAI, Google et Meta à générer les codes médicaux les plus précis. Les codes générés ont été comparés aux codes originaux et les erreurs ont été analysées pour détecter d'éventuels modèles.
Analyse des performances du modèle
Les enquêteurs ont rapporté que tous les grands modèles de langage étudiés, notamment GPT-4, GPT-3.5, Gemini-pro et Llama-2-70b, présentaient des résultats limités. précision (moins de 50 pour cent) dans la reproduction des codes médicaux originaux, mettant en évidence une lacune significative dans leur utilité pour le codage médical. GPT-4 a démontré les meilleures performances, avec les taux de correspondance exacte les plus élevés pour les codes ICD-9-CM (45,9 %), ICD-10-CM (33,9 %) et CPT (49,8 %).
GPT-4 a également produit la plus grande proportion de codes générés de manière incorrecte qui transmettaient toujours la signification correcte. Par exemple, lorsqu’on lui a donné la description de la CIM-9-CM « prostate nodulaire sans obstruction urinaire », GPT-4 a généré un code pour « prostate nodulaire », démontrant sa compréhension relativement nuancée de la terminologie médicale. Cependant, même en considérant ces codes techniquement corrects, un nombre inacceptable d’erreurs subsistait.
Le deuxième modèle le plus performant, GPT-3.5, avait la plus grande tendance à être vague. Il présentait la plus grande proportion de codes générés incorrectement, précis mais de nature plus générale que les codes précis. Dans ce cas, lorsqu'on lui a fourni la description de la CIM-9-CM « effet indésirable non spécifié de l'anesthésie », le GPT-3.5 a généré un code pour « autres effets indésirables spécifiés, non classés ailleurs ».
Importance d’une évaluation rigoureuse de l’IA
« Nos résultats soulignent le besoin critique d'une évaluation et d'un raffinement rigoureux avant de déployer des technologies d'IA dans des domaines opérationnels sensibles comme le codage médical », déclare l'auteur correspondant de l'étude Ali Soroush, MD, MS, professeur adjoint de médecine numérique et basée sur les données (D3M), et Médecine (gastro-entérologie), à Icahn Mount Sinai. « Bien que l’IA recèle un grand potentiel, elle doit être abordée avec prudence et en cours de développement afin de garantir sa fiabilité et son efficacité dans les soins de santé. »
Selon les chercheurs, une application potentielle de ces modèles dans le secteur de la santé consiste à automatiser l'attribution de codes médicaux à des fins de remboursement et de recherche sur la base de textes cliniques.
« Des études antérieures indiquent que les nouveaux grands modèles de langage ont du mal à gérer les tâches numériques. Cependant, l'étendue de leur précision dans l'attribution de codes médicaux à partir de textes cliniques n'a pas été étudiée de manière approfondie dans différents modèles », explique le co-auteur principal Eyal Klang, MD, directeur du programme de recherche sur l'IA générative du D3M. « Par conséquent, notre objectif était d'évaluer si ces modèles pouvaient effectivement accomplir la tâche fondamentale consistant à faire correspondre un code médical à la description officielle correspondante. »
Les auteurs de l'étude ont proposé que l'intégration des LLM avec des connaissances spécialisées pourrait automatiser l'extraction du code médical, améliorant ainsi potentiellement la précision de la facturation et réduisant les coûts administratifs des soins de santé.
Conclusion et prochaines étapes
« Cette étude met en lumière les capacités et les défis actuels de l'IA dans les soins de santé, en soulignant la nécessité d'un examen attentif et d'un raffinement supplémentaire avant une adoption généralisée », déclare le co-auteur principal Girish Nadkarni, MD, MPH, Irene et Dr Arthur M. Professeur de médecine Fishberg à Icahn Mount Sinai, directeur de l'Institut Charles Bronfman de médecine personnalisée et chef du système D3M.
Les chercheurs préviennent que la tâche artificielle de l'étude pourrait ne pas représenter pleinement les scénarios du monde réel dans lesquels les performances du LLM pourraient être pires.
Ensuite, l’équipe de recherche prévoit de développer des outils LLM sur mesure pour une extraction précise des données médicales et une attribution de codes de facturation, dans le but d’améliorer la qualité et l’efficacité des opérations de soins de santé.
Cette recherche a été soutenue par la bourse AGA-Amgen 2023 de la Fondation de recherche AGA pour la transition vers la faculté, le prix AGA2023-32-06 et un prix NIH UL1TR004419.


