Les modèles d'IA modifient leurs recommandations médicales lorsque les gens leur posent des questions qui incluent un langage coloré, des fautes de frappe, une mise en forme étrange et même des pronoms neutres

Soyez prudent de demander des conseils sur l'IA sur le moment de voir un médecin
Devez-vous voir un médecin sur votre mal de gorge? Les conseils de l'IA peuvent dépendre de la façon dont vous avez frappé soigneusement votre question. Lorsque des modèles d'intelligence artificielle ont été testés sur l'écriture simulée de patients potentiels, ils étaient plus susceptibles de conseiller de rechercher des soins médicaux si l'écrivain faisait des fautes de frappe, comprenait un langage émotionnel ou incertain – ou était une femme.
«Les préjugés insidieux peuvent changer le ténor et le contenu des conseils de l'IA, ce qui peut conduire à des différences subtiles mais importantes» dans la façon dont les ressources médicales sont distribuées, explique Karandeep Singh à l'Université de Californie à San Diego, qui n'a pas été impliqué dans l'étude.
Abinitha Gourabathina au Massachusetts Institute of Technology et ses collègues ont utilisé l'IA pour aider à créer des milliers de notes de patients dans différents formats et styles. Par exemple, certains messages comprenaient des espaces supplémentaires et des fautes de frappe pour imiter les patients avec une maîtrise limitée de l'anglais ou moins de facilité avec la saisie. D'autres notes ont utilisé un langage incertain dans le style des écrivains souffrant d'anxiété de santé, d'expressions colorées qui ont prêté un ton dramatique ou émotionnel ou des pronoms non sexistes.
Les chercheurs ont ensuite alimenté les notes à quatre modèles de grande langue (LLM) couramment utilisés pour alimenter les chatbots et ont dit à l'IA de répondre à des questions sur le fait que le patient devait gérer son état à la maison ou visiter une clinique, et si le patient devrait recevoir certains tests de laboratoire et autres ressources médicales. Ces modèles d'IA comprenaient le GPT-4 d'OpenAI, le LLAMA-3-70B et LLAMA-3-8B de Meta, et le modèle Palmyra-Med développé pour l'industrie des soins de santé par l'écrivain d'entreprise d'IA.
Les tests ont montré que les différents changements de format et de style ont rendu tous les modèles d'IA entre 7 et 9 pour cent plus susceptibles de recommander aux patients de rester à la maison au lieu d'obtenir des soins médicaux. Les modèles étaient également plus susceptibles de recommander que les patientes restent à la maison, et les recherches de suivi ont montré qu'elles étaient plus susceptibles que les cliniciens humains de changer leurs recommandations pour les traitements en raison du genre et du style de langue dans les messages.
Openai et Meta n'ont pas répondu à une demande de commentaires. L'écrivain ne «recommande ni ne soutient» en utilisant les LLM – y compris le modèle Palmyra-Med de l'entreprise – pour les décisions cliniques ou les conseils de santé «sans humain dans la boucle», explique Zayed Yasin chez Writer.
La plupart des outils d'IA opérationnels actuellement utilisés dans les systèmes de dossiers de santé électroniques reposent sur le GPT-4O d'OpenAI, qui n'a pas été spécifiquement étudié dans cette recherche, explique Singh. Mais il a dit qu'un gros point à retenir de l'étude est la nécessité de améliorer les moyens «d'évaluer et de surveiller les modèles d'IA génératifs» utilisés dans l'industrie des soins de santé.


