Recevez chaque jour toute l'actualité du numérique

x

Que sont les données synthétiques et comment aident-elles à créer de meilleurs modèles d'IA ?

Les données synthétiques, artificiellement créées à partir de données réelles pour entraîner les modèles de machine learning, sont une solution au besoin de protection des données personnelles et au manque de données en quantité suffisante.
Twitter Facebook Linkedin Flipboard Email
×

Que sont les données synthétiques et comment aident-elles à créer de meilleurs modèles d'IA ?
Que sont les données synthétiques et comment aident-elles à créer de meilleurs modèles d'IA ?

Les algorithmes de machine learning ont, par définition, ont besoin d'être entraînés pour "apprendre". Pour cela, il faut les alimenter avec d'énormes quantités de données. Des données non biaisées de préférence, et sur lesquelles pèsent de plus en plus souvent des contraintes réglementaires liées à la protection des données personnelles (consentement, RGPD…). C'est pour répondre à ces contraintes et à ces exigences que des entreprises spécialisées dans la création de données de synthèse ont vu le jour.
 

un marché en pleine croissance

Ces start-up commencent à faire parler d'elles. Synthesis AI par exemple, qui crée de faux êtres humains pour le métavers, la VR et l'entraînement des systèmes de vision par ordinateur pour l'automobile, a levé 17 millions de dollars en avril 2022. L'autrichien Mostly.ai, qui travaille avec la banque, l'assurance et les télécoms, a levé 25 millions de dollars en série B en janvier. En 2021, Meta a racheté AI Reverie, et plusieurs start-up ont également levé des fonds, parmi lesquelles les américaines Gretel AI (50 millions de dollars), Tonic.ai (35 millions), et Datagen (18 millions).

Du côté des géants de l'informatique, Amazon a lancé en juin son propre outil de création de données synthétiques. IBM, Microsoft et Nvidia sont tous déjà présents sur ces technologies, décrites par Forrester comme l'une des grandes avancées récentes du champ de recherche de l'IA. Gartner estime même que d'ici 2024, 60% des données utilisées pour entraîner les modèles seront synthétiques.

Que sont les données synthétiques ?

Les données synthétiques sont des données créées artificiellement dans le but d'entraîner les modèles de machine learning. Elles se substituent à des données réelles, soit parce que celles-ci ne sont pas disponibles en quantités suffisantes, soit parce que les obligations réglementaires – généralement liées au respect de la vie privée – ne permettent pas de les utiliser directement.

"C'est une donnée qui n'a pas été créée par un processus manuel ou un capteur, mais de manière automatique par des règles de gestion ou une intelligence artificielle. Les données synthétiques peuvent être des données tabulaires, de la voix, de l'image et de la vidéo, ou du langage naturel", explique Jean-Paul Muller, global practice manager IA chez Inetum, une ESN qui travaille sur la question.

Le principe de la donnée synthétique ne date pas d'hier. On le retrouve depuis longtemps dans les simulateurs servant à entraîner des robots par exemple, dans le domaine des statistiques, et dans les images de synthèse. "Ce qui a changé, c'est la méthode, précise Jean-Paul Muller. Au lieu de recourir à des règles de gestion, comme on le ferait par exemple dans un simulateur avec un moteur physique auquel on applique les mêmes lois physiques que dans la nature, on crée des modèles générateurs qui sont entraînés avec des exemples de ce qu'on veut qu'ils génèrent. En fait, ces modèles ne créent pas vraiment des données à partir de rien, ils modifient des données de la même structure pour les rendre cohérentes avec ce que l'on attend. Ils ont ouvert un nouveau champ des possibles."

À quoi ça sert ?

Les données synthétiques peuvent répondre à différents besoins. "C'est utile quand on n'a pas encore de data, ou pas assez, ou que l'on n'a pas le droit de les utiliser. On cherche alors des sosies qui ressemblent suffisamment à l'original", résume Jean-Paul Muller. "C'est plus simple et moins coûteux que d'aller chercher de la vraie donnée."

Elles sont donc entre autres une alternative intéressante à l'anonymisation dans les industries où la protection des données personnelles est une contrainte forte, comme la santé. Dans ce cas de figure, il faut que les données synthétiques ne soient ni trop proches, ni trop éloignées de la donnée réelle, tout en restant cohérentes avec la réalité. Le français Euris, par exemple, propose des solutions de données synthétiques aux industriels de la santé.

L'industrie, la recherche et l'automobile sont les autres grands domaines d'application. Dans l'automobile, elles sont utilisées pour entraîner les systèmes de conduite autonome et d'aide à la conduite. Il serait en effet impossible d'avoir des images de tous les scénarios rencontrés sur la route, par tous les temps, et dangereux de recréer des situations d'accident.

Dans l'industrie, les données synthétiques servent notamment à entraîner les systèmes de détection de défauts. "On ne peut pas décrire des règles de gestion pour un défaut. Pour un pain de colle par exemple, on ne peut pas prendre 10 000 photos de défauts, l'industriel ne les a pas car son travail c'est de produire sans défaut. A la place, on prend quelques photos de défaut, on en crée de nouvelles en manipulant les images, et on réinjecte ces défauts modifiés dans un pain de colle qui n'en a pas. C'est ce que nous avons fait en collaboration avec un industriel", raconte Jean-Paul Muller.

Exemples de cas d'usage

Nvidia, par exemple, a fabriqué des images IRM de tumeurs pour entraîner un système de machine learning destiné à accompagner le travail des radiologues. John Deere y a eu recours pour créer des images de plantes, afin d'améliorer un système de vision par ordinateur équipant ses tracteurs. Il est utilisé pour vaporiser du désherbant uniquement aux endroits nécessaires. JP Morgan l'expérimente dans des jeux de données recréant des fraudes et du blanchiment d'argent.

En France, la Prévention Routière a fait appel à Inetum, pour générer des nouvelles données à partir de sa base d'archives, qu'elle ne peut plus conserver en raison de l'expiration du délai de conservation des données personnelles. Recréer une base de données synthétiques "miroir" à partir de ces données lui permettrait de ne pas tout perdre.

Quelles perspectives pour les données synthétiques ?

"Ce n'est pas encore un gros marché, mais une vraie grosse promesse", estime Jean-Paul Muller. Cependant, il ajoute : "On ne peut pas entraîner une IA uniquement avec des données synthétiques, on est obligé d'hybrider. Par ailleurs, ça marche, mais pas dans tous les cas et ce n'est pas miraculeux non plus." Il faut en effet se rappeler que ces données ne font qu'imiter celles qu'on possède déjà et qui ont servi à les créer, et ne peuvent pas toujours refléter l'ensemble des paramètres du réel.

L'autre inconvénient, c'est le coût. Car construire une base de données synthétiques pour alimenter son modèle d'IA revient à monter un projet d'IA pour pouvoir faire de l'IA ! "C'est un projet en tant que tel, avant que le projet en lui-même ait commencé, résume en une phrase l'expert. C'est la raison pour laquelle de nombreux cas d'usages sont bloqués par le retour sur investissement."

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.