L’IA échoue : les grands modèles de langage ont du mal avec le codage médical, selon une étude

Une étude de l'École de médecine Icahn du Mont Sinaï indique que les grands modèles de langage actuels ne sont pas encore efficaces pour le codage médical, nécessitant un développement plus approfondi et des tests rigoureux avant la mise en œuvre clinique. Crédit : Issues.fr.com

Sommaire

La recherche révèle ses limites en matière de codage médical.

Des chercheurs de l’École de médecine Icahn du Mont Sinaï ont découvert que les systèmes d’intelligence artificielle de pointe, en particulier les grands modèles de langage (LLM), sont médiocres en matière de codage médical. Leur étude, récemment publiée dans le NEJM IAsouligne la nécessité d'affiner et de valider ces technologies avant d'envisager une mise en œuvre clinique.

L'étude a extrait une liste de plus de 27 000 codes uniques de diagnostic et de procédure issus de 12 mois de soins de routine dans le système de santé du Mont Sinaï, tout en excluant les données identifiables des patients. À l’aide de la description de chaque code, les chercheurs ont incité les modèles d’OpenAI, Google et Meta à générer les codes médicaux les plus précis. Les codes générés ont été comparés aux codes originaux et les erreurs ont été analysées pour détecter d'éventuels modèles.

Analyse des performances du modèle

Les enquêteurs ont rapporté que tous les grands modèles de langage étudiés, notamment GPT-4, GPT-3.5, Gemini-pro et Llama-2-70b, présentaient des résultats limités. précision (moins de 50 pour cent) dans la reproduction des codes médicaux originaux, mettant en évidence une lacune significative dans leur utilité pour le codage médical. GPT-4 a démontré les meilleures performances, avec les taux de correspondance exacte les plus élevés pour les codes ICD-9-CM (45,9 %), ICD-10-CM (33,9 %) et CPT (49,8 %).

GPT-4 a également produit la plus grande proportion de codes générés de manière incorrecte qui transmettaient toujours la signification correcte. Par exemple, lorsqu’on lui a donné la description de la CIM-9-CM « prostate nodulaire sans obstruction urinaire », GPT-4 a généré un code pour « prostate nodulaire », démontrant sa compréhension relativement nuancée de la terminologie médicale. Cependant, même en considérant ces codes techniquement corrects, un nombre inacceptable d’erreurs subsistait.

Le deuxième modèle le plus performant, GPT-3.5, avait la plus grande tendance à être vague. Il présentait la plus grande proportion de codes générés incorrectement, précis mais de nature plus générale que les codes précis. Dans ce cas, lorsqu'on lui a fourni la description de la CIM-9-CM « effet indésirable non spécifié de l'anesthésie », le GPT-3.5 a généré un code pour « autres effets indésirables spécifiés, non classés ailleurs ».

Importance d’une évaluation rigoureuse de l’IA

« Nos résultats soulignent le besoin critique d'une évaluation et d'un raffinement rigoureux avant de déployer des technologies d'IA dans des domaines opérationnels sensibles comme le codage médical », déclare l'auteur correspondant de l'étude Ali Soroush, MD, MS, professeur adjoint de médecine numérique et basée sur les données (D3M), et Médecine (gastro-entérologie), à Icahn Mount Sinai. « Bien que l’IA recèle un grand potentiel, elle doit être abordée avec prudence et en cours de développement afin de garantir sa fiabilité et son efficacité dans les soins de santé. »

Selon les chercheurs, une application potentielle de ces modèles dans le secteur de la santé consiste à automatiser l'attribution de codes médicaux à des fins de remboursement et de recherche sur la base de textes cliniques.

« Des études antérieures indiquent que les nouveaux grands modèles de langage ont du mal à gérer les tâches numériques. Cependant, l'étendue de leur précision dans l'attribution de codes médicaux à partir de textes cliniques n'a pas été étudiée de manière approfondie dans différents modèles », explique le co-auteur principal Eyal Klang, MD, directeur du programme de recherche sur l'IA générative du D3M. « Par conséquent, notre objectif était d'évaluer si ces modèles pouvaient effectivement accomplir la tâche fondamentale consistant à faire correspondre un code médical à la description officielle correspondante. »

Les auteurs de l'étude ont proposé que l'intégration des LLM avec des connaissances spécialisées pourrait automatiser l'extraction du code médical, améliorant ainsi potentiellement la précision de la facturation et réduisant les coûts administratifs des soins de santé.

Conclusion et prochaines étapes

« Cette étude met en lumière les capacités et les défis actuels de l'IA dans les soins de santé, en soulignant la nécessité d'un examen attentif et d'un raffinement supplémentaire avant une adoption généralisée », déclare le co-auteur principal Girish Nadkarni, MD, MPH, Irene et Dr Arthur M. Professeur de médecine Fishberg à Icahn Mount Sinai, directeur de l'Institut Charles Bronfman de médecine personnalisée et chef du système D3M.

Les chercheurs préviennent que la tâche artificielle de l'étude pourrait ne pas représenter pleinement les scénarios du monde réel dans lesquels les performances du LLM pourraient être pires.

Ensuite, l’équipe de recherche prévoit de développer des outils LLM sur mesure pour une extraction précise des données médicales et une attribution de codes de facturation, dans le but d’améliorer la qualité et l’efficacité des opérations de soins de santé.

Cette recherche a été soutenue par la bourse AGA-Amgen 2023 de la Fondation de recherche AGA pour la transition vers la faculté, le prix AGA2023-32-06 et un prix NIH UL1TR004419.

L’IA échoue : les grands modèles de langage ont du mal avec le codage médical, selon une étude

La recherche révèle ses limites en matière de codage médical.

Analyse des performances du modèle

Importance d’une évaluation rigoureuse de l’IA

Conclusion et prochaines étapes

Les charges migrantes débloquent des modifications de liaisons CH difficiles à atteindre dans les molécules organiques

Le projecteur hybride offre des images de super-résolution sur une profondeur étendue avec un gain 16 fois supérieur

Une technologie d'observation des baleines basée sur l'IA pourrait aider à sauver les baleines grises de la baie de San Francisco

Une cristallisation minutieuse débloque des couches de pérovskite bien ordonnées pour les transistors

Un « pot » rempli d’ossements humains pourrait résoudre le mystère de la « Plaine des Jarres » du Laos

Le modèle MatterChat aide l'IA à « voir » le langage de la physique à l'échelle atomique pour affiner les prédictions sur les matériaux

Météorites, minéraux et mystères : analyse du cratère d'impact Luna en Inde

Percée quantique : les chercheurs découvrent de nouveaux domaines dans la supraconductivité 1D

Le rôle des e-mails professionnels dans les entreprises

Vivre sans compte bancaire : est-ce vraiment possible en France ?

Compte bancaire ado : quels gestes adopter en tant que parents ?

L’assurance vie est-il un placement sans risque ?

Réussir sa reconversion professionnelle en communication grâce à la formation en ligne

Le coliving : vers une nouvelle manière d’habiter plus écologique

Les charges migrantes débloquent des modifications de liaisons CH difficiles à atteindre dans les molécules organiques

Un contrôle de cohérence jette le doute sur l’évolution de l’énergie noire

Le projecteur hybride offre des images de super-résolution sur une profondeur étendue avec un gain 16 fois supérieur

Les événements météorologiques extrêmes accélèrent la perte des zones humides liées aux marées, selon des données satellite

Faut-il parler du corps des célébrités ?

Pourquoi posséder une équipe sportive est le symbole de statut ultime

Une technologie d'observation des baleines basée sur l'IA pourrait aider à sauver les baleines grises de la baie de San Francisco

Une cristallisation minutieuse débloque des couches de pérovskite bien ordonnées pour les transistors

Mars révèle le premier effet Zwan-Wolf au plus profond de son atmosphère lors d'une tempête solaire

Les réserves du Brésil fonctionnent avec trop peu de financement, Amazon n'en obtenant que 20 %

La reine Camilla porte un diadème vieux de plusieurs siècles avec 1 333 diamants à l'ouverture du Parlement britannique

Un « pot » rempli d’ossements humains pourrait résoudre le mystère de la « Plaine des Jarres » du Laos

Le modèle MatterChat aide l'IA à « voir » le langage de la physique à l'échelle atomique pour affiner les prédictions sur les matériaux

Le compagnon constant de la Terre est-il un astéroïde égaré ou un morceau de lune ?

La recherche révèle ses limites en matière de codage médical.

Analyse des performances du modèle

Importance d’une évaluation rigoureuse de l’IA

Conclusion et prochaines étapes

Avant de partir, restons en contact !