L’IA pour poser un diagnostic en otologie : ce n’est pas pour tout de suite

Et si les IA faisaient mieux que les médecins ? Dans une étude de cohorte publiée sur Otology & Neurotology, des chercheurs ont tenté d’évaluer la précision de trois intelligences artificielles génératives : ChatGPT, Google Bard et WebMD “Symptom Checker” pour établir un diagnostic médical.

Ils ont comparé les prédictions des grands modèles de langage (LLM) avec les diagnostics de chirurgiens otologiques et neurotologiques en se basant sur les symptômes décrits par une centaine de patients adultes.

Des résultats mitigés

Quel est le verdict ? Les résultats de l’étude offrent un aperçu intéressant mais mitigé des capacités actuelles des plateformes d’IA basées sur des modèles linguistiques en matière de diagnostic médical. Dans le détail, les précisions diagnostiques sont de 22,45 %, 12,24 % et 5,10 % pour ChatGPT 4.0, Google Bard et WebMD, respectivement.

Les chercheurs en ont conclu que, si ces technologies peuvent générer des diagnostics pour différencier une pathologie d’une autre avec des données limitées, les médecins se démarquent et restent plus performants lorsqu’il s’agit d’affiner les diagnostics grâce aux entretiens médicaux avec leurs patients, aux examens physiques et à leur expérience clinique. En d’autres termes, les IA ne parviennent pas encore à interpréter les symptômes dans un contexte clinique plus large, incluant les antécédents médicaux, les examens physiques et les subtilités des interactions humaines, essentielles pour poser un diagnostic précis.

D’autres résultats plus encourageants

Toutefois, l’IA n’est pas toujours à côté de la plaque. Utilisé aux urgences d’un hôpital aux Pays-Bas, ChatGPT est parvenu à réaliser des diagnostics tout aussi pertinents que ceux des médecins, d’après une étude publiée dans Annals of Emergency Medicine. L’étude s’est penchée sur trente cas étudiés dans l’établissement en 2022. Les chercheurs ont fourni à l’intelligence artificielle les antécédents des patients, les résultats des tests en laboratoire et les observations des médecins, puis lui ont demandé de proposer cinq diagnostics possibles. Résultat ? Dans 87 % des cas, le bon diagnostic figurait dans la liste proposée par ChatGPT. Mais de là à dire que l’IA dirigera un jour un service d’urgence, il y a un monde. Si les chercheurs laissent entendre que l’IA générative peut aider les médecins, en soumettant des idées auxquelles ils n’avaient pas pensé, elle a toutefois montré ses limites, donnant parfois des raisonnements « invraisemblables ou incohérents ».