Actualité web & High tech sur Usine Digitale

Recevez chaque jour toute l'actualité du numérique

x

Quand les big data de Google se trompent pour prédire l’épidémie de grippe

Analyser les données issues du big data n’est pas une mince affaire, même pour les géants du net. La preuve ? Google, qui s’était dit en 2008 capable de prévoir la propagation de la grippe, a largement surestimé le nombre de malades avec son outil Google Flu Trends.
Twitter Facebook Linkedin Flipboard Email
×

Quand les big data de Google se trompent pour prédire l’épidémie de grippe
Quand les big data de Google se trompent pour prédire l’épidémie de grippe © Infocux Technologies - Flickr - C.C.

Les données collectées à grande échelle par Google ne lui suffiront pas à être la Pythie du 21e siècle : son outil développé en 2008, Google Flu Trends, ne serait finalement pas capable de prédire avec exactitude la propagation du virus de la grippe, révélait en 2012 un article de Nature. Mi-mars, Science s’est penché sur les causes de cet échec.

Pour réaliser ses prévisions, Google Flu Trends se base sur les termes tapés par les internautes dans le moteur de recherche. Schématiquement, l’épidémie se développerait là où le mot fièvre, entre autre, est plus recherché qu’en temps normal. Sauf que les estimations de Google pour les Etats-Unis dépassent de 50% celle du Centre américain de contrôle et de prévention des maladies. Or celles-ci sont plus fiables car elles proviennent directement du terrain.

Le football américain intégré à l’algorithme

Science pointe un premier problème : pour créer le Google Flu Trends, les développeurs ont comparé l’évolution du nombre de recherches de 50 millions de termes dans un territoire donné, avec le propagation connue de la grippe dans ce même territoire. Ils ont ensuite construit l’algorithme.

Sauf que certains noms fréquemment recherchés en période d’épidémie n’ont aucun rapport avec la maladie. Un exemple ? Les mots liés au football américain, dont la saison se déroule principalement en hiver. Comme leur courbe de recherche augmente en même temps que celle de la maladie, ils étaient au départ intégrés dans les calculs. De nombreux cas de grippe prévus par Google Flu Trends n’ont donc en fait jamais existé. Ce vocabulaire a fini par être exclu du système par l’entreprise, mais d’autres liens fortuits peuvent venir perturber les résultats de la même manière.

Les small data sont essentielles

Les scientifiques qui ont réalisé l’étude soulignent une autre faiblesse du système : le moteur Google a évolué depuis 2008. Il suggère de plus en plus de termes de recherche additionnels, pour que ses utilisateurs fassent un maximum de requêtes et voient donc plus de publicités. Chaque internaute a donc tendance aujourd’hui à rechercher plus de mots en rapport avec la grippe qu’en 2008. Pour autant, le nombre de cas n’a pas explosé entre les deux périodes.

Pour éviter que le "voyant du net" ne surestime l’épidémie, les chercheur préconisent de croiser régulièrement ses big data avec des "small data", issues du terrain. En l’occurrence aux Etats-Unis, celles du Centre américain de contrôle et de prévention des maladies.

Lélia de Matharel

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

 
media
Suivez-nous Suivre l'Usine Digitale sur twitter Suivre l'Usine Digitale sur facebook Suivre l'Usine Digitale sur Linked In RSS Usine Digitale