IA : les grandes modèles de langage, mauvais codeurs médicaux

publié le 2 mai 2024

Les grands modèles de langage IA, ou LLM, sont-ils de bons outils pour automatiser l’attribution de codes médicaux à des fins de remboursement et de recherche sur la base de textes cliniques ? 

Une équipe de chercheurs américains de l’École de médecine Icahn du Mont Sinaï (New York) s’est penchée sur la question, mettant à l’épreuve quelques LLM. Modèles de langage évalués : ceux d’OpenAI (GPT 4 et GPT 3.5), Google (Gemini Pro) et Meta (Llama 2 70B).

Le banc d’essai reposait sur quelque 27.000 codes uniques de diagnostic et de procédure, générés lors de soins prodigués pendant une période d’un an à l’hôpital Mount Sinaï.

Les résultats sont plutôt décevants, la précision étant loin d’être au rendez-vous. Aucun des LLM passés à la loupe n’a obtenu la moyenne de 50% lorsqu’il s’agit de reproduire les codes médicaux originaux, ce qui “met en évidence une lacune significative dans leur utilité pour le codage médical”.

Le “meilleur” – GPT4 – n’obtient que 33,9% en termes de taux de correspondance exacte lors d’une codification ICD-10-CM, même s’il fait mieux face à ICD-9-CM (45,9 %) ou CPT (49,8 %).

Ce manque de précision vire parfois à une réelle génération incorrecte de codes. Cela se manifeste par exemple par le fait que les LLM font parfois, voire souvent, preuve de laxisme ou de simplisme dans la formulation. Exemple cité : “quand on lui fournit comme description CIM-9-CM “prostate nodulaire sans obstruction urinaire”, GPT-4 a généré un code pour “prostate nodulaire”, ce qui “démontre sa compréhension relativement nuancée de la terminologie médicale”.

Le moins précis semble être le GPT 3.5. Exemple cité : le code d’origine correspondant à “effet indésirable non spécifié de l’anesthésie” a été “traduit” par GPT 3.5 par un code signifiant “autres effets indésirables spécifiés, non classés ailleurs”.

Conclusions des chercheurs : “nécessité d’un examen attentif et d’un raffinement supplémentaire avant une adoption généralisée, […] nécessité d’insérer dans les LLM des connaissances spécialisées, ce qui pourrait permettre d’automatiser l’extraction du code médical.” Et, par conséquent, “nécessité de développer des outils LLM sur mesure”.

Avec aussi cette remarque, elle aussi peu rassurante, que “la tâche artificielle de l’étude [menée au Mount Sinaï] pourrait ne pas représenter pleinement les scénarios du monde réel dans lesquels les performances du LLM pourraient être pire”.

Le rapport d’étude de l’équipe de chercheurs Mount SinaÏ a été publié dans le mensuel et sur le site NEJM AI.

Source : Issues.fr