[Tribune] Intelligence artificielle : sans normalisation des données, l’IA est stupide !
Le 3 juillet 2019, le ministre de l’Economie et des Finances a dévoilé les mesures économiques visant à l’essor de l’intelligence artificielle en France et de la stratégie mise en place pour ce faire, suite au rapport remis par le député Cédric Villani, mathématicien. Or pour fonctionner sans erreur, les algorithmes ont besoin de pouvoir comparer des données dans un historique afin de produire statistiquement un résultat.... Par Sébastien Garcin et Jean-Philippe Poisson, cofondateurs de yzr.
Ce 3 juillet 2019, le ministre de l’Economie et des Finances a dévoilé les mesures économiques visant à l’essor de l’intelligence artificielle en France et de la stratégie mise en place pour ce faire, suite au rapport remis par le député Cédric Villani, mathématicien. L’intelligence artificielle est souvent vue comme la quatrième révolution industrielle. En effet, même si elle s’appuie sur des concepts mathématiques relativement anciens et connus, elle connaît un développement très rapide depuis quelques années seulement pour deux raisons : la montée en puissance du digital augmente le nombre de données disponibles et le coût du stockage des données et de leur traitement a baissé drastiquement. L’IA est donc sorti des laboratoires pour s’immiscer dans notre vie de tous les jours.
Si vous "éduquez" un algorithme sur les ventes de vos tris dernières années, en intégrant tous les paramètres (ventes, publicité, météo, prix, distribution), vous saurez prédire vos ventes jusqu’à 12 mois à l’avance. Si vous entraînez un programme d’analyse d’image sur de nombreux échantillons de scanners de poumon, avec les diagnostics associés, vous saurez reconnaître automatiquement une tumeur cancéreuse chez un patient. Si vous naviguez sur un site e-commerce, il y a de fortes chance qu’un algorithme ait déterminé ce que les clients qui se comportent comme vous sont le plus susceptibles d’acheter pour vous proposer les produits qui vous feront craquer. C’est ça l’IA : un bouquet d’algorithmes qui réalisent des calculs sur d’importants volumes de données pour produire une information.
Transformer la data en information
Dans notre économie de plus en plus numérisée, qui produit et consomme toujours plus de données, cette capacité à transformer des importants volumes de données en information est définitivement stratégique, et c’est ce qui pousse à considérer que la généralisation de cette technologie est notre quatrième révolution industrielle. On s’intéresse donc beaucoup à la science de l’algorithmie, et c’est normal. Les organisations s’équipent d’infrastructures, et de grandes équipes de data scientists chargés de concevoir et d'entraîner des algorithmes et des applications.
Pour assurer la pertinence des outils développés, les acteurs économiques auraient surtout besoin de partager le maximum de données. "L’accès aux données publiques et l’incitation au partage de données privées constituent un des piliers de la stratégie nationale en matière d’IA", indique Bercy. Pourtant, le développement de l’IA repose sur un fondamental qui est souvent ignoré tant il paraît insignifiant : ce fondamental, c’est la norme.
En effet, pour que nos glorieux algorithmes français traitent des données françaises sans encombre, encore faut-il qu’elles soient normées. C’est à dire que chaque donnée soit renseignée et identifiée avec la bonne étiquette, le bon nommage, que toutes les machines pourront reconnaître sans risque d’erreur. Sans données normalisées, l’IA est stupide.
Faire converger les données vers un format unique
En effet pour fonctionner sans erreur, les algorithmes ont besoin de pouvoir comparer des données dans un historique afin de produire statistiquement un résultat. Si les données sont encodées selon des formats différents, le data scientist va devoir d’abord les préparer, c’est-à-dire notamment les faire converger vers un format unique et corriger les erreurs. Ce travail fastidieux, répétitif à et, disons-le, démotivant, représente en fonction des études environ 70% du temps passé par un data scientist, qu’il ne passe pas à imaginer de nouveaux algorithmes. Prenons un exemple aussi trivial qu’une date, information présente dans une très large majorité d'algorithmes. Entre les formats différents, les variations de temporalités (ex. un fichier formaté sur une semaine du dimanche au dimanche, l’autre sur les jours ouvrés), c’est un temps infini passé à des tâches de convergence à faible valeur ajoutée et une perte colossale d’argent.
Or les taxonomies sur un même type de donnée sont majoritairement différentes en fonction des organisations voire même souvent entre les différentes directions d’une même entreprise. Alors au niveau national voire international n’en parlons pas ! Développer l’internationalisation de l’IA sans se préoccuper de la normalisation des données, c’est un peu comme si on développait le chemin de fer sans normaliser l’écartement des voies. Tout ceux qui ont dû patienter de longues heures à la frontière espagnole en attendant le changement d’essieux de leur train en savent quelque chose. En effet, les voies espagnoles sont écartées de 1,668 mètre contre 1,435 mètre pour le réseau européen...
Les avis d'experts sont publiés sous l'entière responsabilité de leurs auteurs et n'engagent en rien la rédaction de l'Usine Digitale.
SUR LE MÊME SUJET
[Tribune] Intelligence artificielle : sans normalisation des données, l’IA est stupide !
Tous les champs sont obligatoires
0Commentaire
Réagir