Recevez chaque jour toute l'actualité du numérique

x

Cartes de France du Covid-19 : les dessous d’un accident de gouvernance de la donnée numérique

Tribune Les services du ministère des Affaires sociales et de la Santé publient tous les jours une carte de l’activité épidémique en France. Dès la première publication, des erreurs flagrantes sont apparues. Le décryptage de Sébastien Garcin, fondateur et dirigeant de la start-up Yzr.
Twitter Facebook Linkedin Flipboard Email
×

Cartes de France du Covid-19 : les dessous d’un accident de gouvernance de la donnée numérique
Cartes de France du Covid-19 : les dessous d’un accident de gouvernance de la donnée numérique © Capture

Comme pour les catastrophes aériennes, les erreurs d'analyse de données proviennent d'une succession de petits erreurs et défauts de processus qui combinés ensemble conduisent à des accidents plus graves. Rappel de la chronologie des faits.

 

Mardi 28 avril, Edouard Philippe annonce la création d'un codage "vert, orange, rouge" pour les départements afin de moduler les règles de déconfinement. Jeudi 30 avril, une première carte est présentée. Cette dernière révèle peu de surprises : le grand quart Nord-Est, englobant l'Île-de-France, est la zone de France dans laquelle le risque épidémique est très élevé.

 

Pourtant, la carte présente le Lot et la Haute-Corse comme des zones rouges ainsi que quelques départements du Centre-Ouest qualifiés de zones oranges.

 

 

Vendredi 1er mai, une deuxième carte est présentée, où notamment le Lot et Haute-Corse passent du rouge au vert.

Depuis ce jour, il n'existe pas un seul professionnel travaillant dans le domaine de la donnée qui ne se demande pas : comment se fait-il que les pouvoirs publics aient pu commettre une telle erreur ? Un étude plus approfondie des données disponibles permet d’y voir plus clair.

 

Deux indicateurs et des questions

La méthodologie utilisée permet de définir un score pour chaque département sur la base de deux indicateurs : quand l’un des deux est rouge, le département obtient un score rouge. Le premier indicateur est la tension hospitalière : c'est le taux d'occupation des lits de réanimation par rapport à la capacité initiale avant l'épidémie. Ce premier indicateur ne pose pas de problème, la donnée est facile à suivre dans le temps et relativement stable.

 

Le second indicateur est la circulation active du virus : cet indicateur n'existe pas dans l'absolu, il est donc nécessaire de le construire à partir des données disponibles. Le choix s'est porté sur le calcul suivant : taux de passages aux urgences pour suspicion de COVID-19 pour 10 000 passages aux urgences (toutes affections comprises).

 

D’où viennent donc les erreurs sur la carte du 30 avril ? Comme pour tout ce qui touche à la donnée, c’est aux détails de la réalité du terrain qu’il faut s’intéresser en premier lieu.

 

Que s'est-il passé dans le Lot ? D’après les communiqués de presse de l’ARS (Agence Régionale de Santé), il semble que les "passages aux urgences pour suspicion de COVID-19" sont évaluées sur la base du nombre de tests effectués à l'hôpital car c’est sans doute ce qui est le plus simple de compter, et ceci avec une faible marge d’erreur (dans le jargon, cela s'appelle un "proxy"). L’ARS déclare en effet : "Une analyse rapide de ces données a conclu qu’un nombre de prélèvements récemment effectués par des services d’urgence lotois avaient conduit ces dernières semaines à surévaluer le pourcentage de passages aux urgences pour suspicion de coronavirus par rapport à la réalité". 

 

Résultat, comme le nombre d'admissions aux urgences dans le Lot est très bas (moins de 100 par jour, tout compris), un petit événement comme celui-ci a eu un impact très fort sur le "proxy" et donc sur la mesure effectuée.

 

Rentrons encore davantage dans le détail : regardons les chiffres au jour le jour au 26 avril, le taux était de 3,85%, au vert, alors que le 27 avril, le taux était de 10,78%, au rouge. C’est donc un triplement de l’indicateur qui semble très significatif.

 

Mais il est nécessaire de souligner que dans le Lot, département faiblement peuplé, environ 100 personnes se présentent aux urgences tous les jours. 6% de différence, c’est donc environ 6 personnes. Il suffit qu’une famille se fasse tester "Covid" pour que l’indicateur passe immédiatement du vert au rouge. Le Lot a donc reçu un score "rouge" parce qu’un événement peu signifiant (6 personnes testées) impactait les indicateurs de façon disproportionnée par rapport à la réalité de la situation.

 

D’ailleurs, depuis le 30 avril, l’indicateur est à 0%. Est ce que l'épidémie est éteinte dans le Lot ? Non, c’est juste qu’aucun test de dépistage directement en lien avec une admission aux urgences n’a été effectué. Dans un département très peu peuplé, la variable utilisée présente une très forte volatilité : elle passe du jour au lendemain de 0 à plus de 10%. Son usage est donc délicat.

 

Que s'est-il passé en Corse ?

Une dépêche médiatique a été largement reprise : "les modalités du codage par le centre hospitalier de Bastia entraînent une surestimation du nombre de passages aux urgences pour Covid".  Faute d'information, nous ne pouvons que supputer : des tests ont dû être réalisés à l'hôpital, mais pas pour des cas admis dans ce même hôpital. Ces tests seraient donc comptabilisés dans les "passages aux urgences pour suspicion de COVID-19" et augmentent par conséquent artificiellement le taux, et ce d’autant plus fortement qu’ils augmentent le numérateur sans impacter le dénominateur : cela s'appelle "l'effet ciseau".

 

Rentrons à nouveau dans le détail avec les chiffres au jour le jour :

25 avril : le taux est de 3,95% ;

26 avril : le taux est de 1,08% ;

27 avril : le taux est de 22% ;

28 avril : le taux est de 30%.

 

A partir du 27 avril, Ajaccio affiche le taux le plus élevé de France, devant Paris, et toutes les grandes villes et l’Est de la France ! Il y a t-il un foyer de contagion apparu mystérieusement dans la nuit du 26 au 27 avril ? Non : il s’agit vraisemblablement d’une erreur de saisie quelque part dans la chaîne ou bien le périmètre de collecte, qui aurait par exemple changé suite à un changement de code géographique. Cela se nomme "une rupture de série" : elle aurait dû être repérée, expliquée et corrigée.

 

Au final, nous nous retrouvons donc avec des problèmes fréquents lorsque la donnée est manipulée pour en conclure des analyses : le premier problème provient des procédures de collecte de données qui ne sont pas standardisées. Des données sont collectées, mais elle n’ont pas toutes le même périmètre : elles sont donc fausses mais cela ne se détecte pas. Le second problème vient de la qualité des indicateurs disponibles. Nous faisons souvent des choix par défaut, sans prendre en compte les risques liés à l’usage de ces indicateurs (ici leur volatilité et l’effet "levier" des biais de collecte).

 

Tout ceci est parfaitement explicable et tous les professionnels de la données connaissent ces problèmes ; problèmes auxquels ils savent plus ou moins bien remédier.

 

Une absence apparente de contrôle

Ce qui est beaucoup plus inexplicable, c'est l'apparente absence de contrôle de cohérence qui aurait dû être effectué sur les cartes avant de les publier.

 

Premièrement, la confrontation des deux cartes aux deux indicateurs (qui sont assez fortement corrélés) aurait dû donner l'alerte. Un département peut-il vraiment être vert (c'est à dire sans tension hospitalière) et rouge (avec une circulation active du virus) en même temps ? Ceci est peu probable et cette incohérence n’a pas été prise en considération.

 

Deuxièmement, les départements comme la Haute Corse et le Lot sont réputés pour abriter peu de malades : comment peuvent-ils afficher de telles "circulations actives du virus" ? Le curieux résultat aurait mérité d’être davantage creusé avant publication.

 

Lorsque qu’on contrôle une analyse, ces deux facteurs doivent absolument sonner l’alerte et aboutir à deux initiatives en fonction de la source de l'erreur :

- Trouver la source de l’erreur et la corriger avant de la publier ;

- Ne pas trouver la source et dans ce cas ne pas publier, ou bien créer un autre code couleur comme "bleu" pour "données non renseignées".

 

Cette carte aura été le parfait cas d’école d’un projet "data" mené sans gouvernance. Ce n’est pas nouveau, cela arrive tous les jours et dans toutes les organisations. Dans ce cas-ci, rien de grave, mais l’incident nuira gravement à la crédibilité des analyses futures, ce qui est plus problématique.

 

Organiser la gouvernance des données

Dans ce cas précis, une saine gouvernance des données aurait permis d’alerter les analystes sur le risque lié à l'utilisation de ce type d’indicateur très volatil et obtenu par l'intermédiaire d'un "proxy". En conséquence, les analystes auraient testé des méthodes de lissage de ces indicateurs afin de diminuer leur volatilité. Par la suite, le Ministère aurait été en capacité d’imposer une normalisation rigoureuse des données et de leur méthode de collecte afin de se soumettre à un contrôle strict de la cohérence des résultats avant publication.

 

A une époque où investisseurs et pouvoirs publics misent beaucoup sur l’intelligence artificielle et sur les algorithmes, le fait est qu’une tâche apparemment simple comme la publication d’une carte affichant deux indicateurs semble poser un vrai problème. Ce n’est pas un algorithme qui est mis en cause : il s’agit d’un problème de données mal standardisées et de procédures de contrôle défaillantes. Le signe qu’il est plus que nécessaire d’intégrer de véritables expertises de la gouvernance des données dans toutes les organisations, et à commencer par celles qui nous gouvernent.

 

Données brutes analysées par Véronique Lopez, Yzr.
Tribune rédigée par Sébastien Garçin, entrepreneur dans la gouvernance et la normalisation des données et fondateur de la start-up Yzr. Anciennement directeur marketing et data de L'Oréal France, Sébastien Garcin développe la souveraineté technologique des organisations grâce à leurs données.

 

Les avis d'experts sont publiés sous l'entière responsabilité de leurs auteurs et n'engagent en rien la rédaction de L'Usine Digitale.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.