IA : Les systèmes d'aide au diagnostic du Covid-19 sont souvent biaisés, d'après une étude
Des scientifiques regrettent que les systèmes d'apprentissage automatique d'aide au diagnostic ou au pronostic développés dans le cadre du Covid-19 comportent de nombreuses erreurs qui les rendent impropres à une utilisation en routine clinique. Après avoir étudié 62 publications, ils relèvent que les données d'entraînement sont souvent mauvaises, que la qualité des scanners thoraciques est trop faible...
Quelles sont les erreurs les plus courantes rencontrées dans les systèmes d'apprentissage automatique appliqués aux scanners pulmonaires dans le cadre de la lutte contre le Covid-19 ? C'est sur cette problématique que se sont penchés des chercheurs des Universités de Cambridge et de Manchester dans un article qui vient d'être publié dans la revue scientifique Nature Machine Intelligence.
Aider les professionnels de santé
Depuis le début de la pandémie, de nombreux chercheurs issus d'organismes publics et privés ont développé des modèles de diagnostic et de pronostic pour épauler les professionnels de santé. Facebook AI, la division de recherche en IA de Facebook, et l'Ecole de médecine de l'Université de New-York (NYU) ont par exemple développé trois systèmes d'apprentissage automatique capables de prédire jusqu'à 4 jours à l'avance si l'état d'un patient allait se détériorer.
"L'urgence de la pandémie a conduit de nombreuses études à utiliser des data sets qui contiennent des biais évidents ou qui ne sont pas représentatifs de la population cible, par exemple les patients pédiatriques", expliquent les chercheurs. Ces algorithmes erronés ne pourront jamais être réutilisés dans de futurs essais cliniques, se désolent-ils, car ils ne passeront jamais l'étape de la validation technique. "Dans leur forme actuelle, aucun des modèles inclus dans cette revue n'est probablement candidat à une traduction clinique pour le diagnostic/pronostic du Covid-19."
Les modèles sont mal entraînés
Pour arriver à cette conclusion, les scientifiques ont évalué plus de 2200 articles. Grâce à un processus d'élimination des doublons et des titres considérés comme non pertinents, ils ont réduit ces résultats à 320 articles puis à 62.
Sur ces 62 articles scientifiques, environ la moitié n'avait pas effectué de validation externe des données d'entraînement, n'avait évalué ni la sensibilité ni la robustesse du modèle et n'avait pas adapté ses résultats aux données démographiques des personnes dont les informations ont été utilisées, indiquent les chercheurs.
Aucun moyen de reproduire les résultats obtenus
Ils soulèvent également des problématiques liées au partage des connaissances, une étape indispensable pour éprouver l'algorithme. Ainsi, seul un modèle de diagnostic ou de pronostic sur cinq a partagé son algorithme pour que les scientifiques, professionnels de santé… puissent le réutiliser afin de reproduire les résultats présentés dans la publication.
Par ailleurs, les algorithmes étudiés par les scientifiques reposaient pour la très grande majorité sur des scanners thoraciques, examen phare pour détecter une infection au SARS-CoV-2 dans les poumons. Or, ces images médicales étaient souvent de piètre qualité et n'étaient pas assez nombreuses pour être représentatives, notent également les scientifiques.
Une explosion des publications depuis le début de la pandémie
Les critiques formulées par les scientifiques ne sont pas étonnantes. Depuis le début de la pandémie de Covid-19, le nombrede publications scientifiques a explosé. L'Express rapportait en juin dernier que depuis le début de l'année, 20 000 études ont été publiées sur ce virus. Edward Campion, rédacteur en chef du New England Journal of Medicine (NEJM), racontait que les experts devaient examiner très rapidement les études pour ensuite les publier. Ce qui pourrait expliquer en partie ces erreurs.
SUR LE MÊME SUJET
IA : Les systèmes d'aide au diagnostic du Covid-19 sont souvent biaisés, d'après une étude
Tous les champs sont obligatoires
0Commentaire
Réagir