Recevez chaque jour toute l'actualité du numérique

x

Pourquoi les GAFAM font parfois écouter à des humains ce qu'entendent leurs assistants vocaux

Décryptage Google, Microsoft, Amazon et Apple ont chacun été mis en cause ces derniers mois pour des pratiques enfreignant la vie privée de leurs utilisateurs. Des prestataires extérieurs étaient tâchés par ces entreprises d'écouter des séquences audio capturées par des smartphones, enceintes ou ordinateurs, et de les transcrire ou traduire. Mais pourquoi ces géants technologiques se livrent-ils à ces pratiques, et ce depuis des années ? Qu'en retirent-ils ? Explications.
Twitter Facebook Linkedin Flipboard Email
×

Pourquoi les GAFAM font parfois écouter à des humains ce qu'entendent leurs assistants vocaux
Pourquoi les GAFAM font parfois écouter à des humains ce qu'entendent leurs assistants vocaux

Amazon, Apple et Google se sont fait taper sur les doigts ces derniers mois suite à des fuites d'enregistrements vocaux provenant d'utilisateurs de leurs services respectifs. Certains de ces fichiers se sont retrouvés entre les mains de prestataires extérieurs qui les ont transmis à la presse. La semaine dernière, c'est Microsoft qui s'est fait épinglé pour une affaire similaire concernant le service de traduction automatique de Skype. Nous allons vous expliquer pourquoi ces géants technologiques se livrent à ces pratiques et comment elles sont intimement liées à l'essor des assistants vocaux.

 

La classification des données, clé de voûte de l'apprentissage automatique

Pour bien comprendre ce phénomène, il faut d'abord revenir sur les dessous des progrès réalisés grâce à "l'intelligence artificielle". Le terme intelligence artificielle est vague et regroupe de nombreuses disciplines et techniques différentes, mais il s'appuie dans la majorité des cas sur de l'apprentissage automatique, c'est-à-dire l'entraînement d'un modèle à partir d'une vaste quantité de données. On fournit à ce modèle de très nombreux exemples d'un résultat recherché (par exemple une photo d'un chat), ce qui lui permet de reconnaître ce résultat dans de nouveaux cas (savoir s'il y a un chat dans une photo).

 

Mais, pour rester sur notre exemple, encore faut-il trier et labelliser les chats dans les photos qui servent à entraîner le modèle. Cela implique une intervention humaine généralement assez laborieuse. C'est ce qu'on appelle l'apprentissage supervisé. Cette classification des données est absolument essentielle au bon apprentissage d'un modèle et se répercute directement sur sa pertinence et son efficacité. Et plus la tâche est complexe, plus la classification doit être précise.

 

Au-delà de l'apprentissage automatique, la qualification manuelle de résultats est à l'œuvre dès qu'il s'agit de s'assurer qu'un système complexe fournit la bonne réponse, à commencer par les moteurs de recherche. L'objectif d'un moteur est d'afficher un résultat pertinent en réponse à la requête d'un utilisateur. C'est déjà toute une science en soi, mais une couche de difficulté supplémentaire vient s'ajouter de par les différentes langues et usages culturels en fonction des pays et régions autour du globe.

 

Améliorer les résultats des moteurs de recherche

C'est pour cette raison que Google a commencé à faire appel à des collaborateurs externes dès le début des années 2000. Car autrement, comment les ingénieurs d'une entreprise de la Silicon Valley pourraient-ils s'assurer que leur moteur retourne bien le bon résultat pour une requête du type "resto asiat 12e" ou "gims bella" ?

 

D'autant qu'au-delà de la langue elle-même, les variations régionales sont aussi très importantes. A titre d'exemple, en France quelqu'un cherchant "cali different" veut très probablement écouter la chanson "Différent" du chanteur Cali, mais aux États-Unis, la même requête voudra plutôt des informations sur ce qui différencie la Californie des 50 autres États du pays. Cela a été le point de départ de ces projets.

 

Des missions confiées à des agences de travail temporaire

Les géants technologiques font typiquement appel à des entreprises de travail temporaire qui se chargent après signature du contrat de recruter des travailleurs indépendants dans chaque territoire concerné. Ces derniers travaillent de chez eux et ne signent pas de contrat de travail mais s'engagent par écrit à ne pas divulguer les informations auxquelles on leur donne accès.

 

Leur salaire horaire brut est habituellement compris entre 10 et 20 dollars de l'heure, sachant qu'il est à leur charge de le déclarer ensuite aux impôts, et ils travaillent généralement entre 10 et 20 heures par semaine. Pour les résultats de recherche, leur rôle est d'évaluer la pertinence des résultats présentés pour des requêtes précises en suivant un ensemble de règles très strictes, mais aussi de signaler d'éventuelles particularités (pornographie, spam, activité illégale...). Plusieurs travailleurs évaluent le même résultat indépendamment afin de limiter les erreurs.

 

Au fil des ans, la durée des missions a pu varier de quelques semaines à plusieurs années suivant les projets, et Google a été suivi par Microsoft pour son moteur de recherche Bing. Avec le temps ces projets ont aussi été élargis à d'autres domaines comme la recherche de photos ou de vidéos.

 

La compréhension des requêtes orales rajoute de la difficulté

Les choses se sont accélérées avec l'avènement de la recherche vocale. Les assistants vocaux ont envahi les smartphones, mais aussi les consoles de jeu, les enceintes connectées, les voitures... Autant de cas d'usage spécifiques avec leurs propres challenges, auxquels vient se rajouter le problème de la reconnaissance et de la transcription de la parole.

 

En effet, interpréter une requête écrite est une chose et savoir correctement transcrire une commande orale en est une autre. Les problématiques d'accent, d'argot et de langage familier viennent se rajouter au reste, sans oublier les langues parlées dans "le mauvais pays", comme par exemple une commande orale dite en espagnol à la version française d'un assistant. Pour améliorer la pertinence des résultats, les géants technologiques ont encore une fois fait appel aux mêmes prestataires extérieurs, ce qui nous amène aux récentes affaires.

 

A noter que cela dépasse le cadre de la recherche ou de la commande vocale. Les progrès de Google Translate au fil des ans ne sont par exemples pas seulement le résultat d'une amélioration technique, mais aussi et surtout des efforts de sa communauté d'utilisateurs bénévoles très soudée qui corrige manuellement les erreurs de traduction du service et en améliore ainsi la pertinence. Microsoft de son côté a cherché à améliorer le service de traduction automatique de Skype en faisant appel à des prestataires.

 

Une atteinte à la vie privée ?

Certains des travailleurs indépendants employés par ces entreprises ont rompu leur accord de non-divulgation et révélé qu'ils étaient exposés à des enregistrements de personnes partageant des pensées intimes, achetant de la drogue ou parlant de leurs symptômes médicaux. De leur côté, les GAFAM concernés ont répliqué que les données sont anonymisées et ne concernent qu'un pourcentage infime des requêtes et que les clients sont prévenus. Ces deux versions des faits ne sont pas opposées.

 

Les enregistrements sont réellement anonymisés, dans le sens où ils sont présentés sans aucun contexte aux travailleurs indépendants, dont le seul rôle est de les transcrire, traduire, qualifier ou catégoriser, selon le projet. Et ils concernent en effet uniquement un petit nombre de cas : ceux pour lesquels le système n'arrive pas à comprendre la requête. Cela implique un certain nombre de situations (censées rester minoritaires) dans lesquelles la commande vocale a été activée par erreur : d'où les cas de figure cités plus haut.

 

Enfin, les utilisateurs sont techniquement prévenus que des données peuvent être collectées à des fins d'amélioration du service... mais sans préciser que des gens écouteront des enregistrements. Rien n'est faux, donc, mais les GAFAM ne sont pas tout à fait honnêtes non plus. A l'heure du RGPD, ces pratiques devraient être clarifiées.

 

L'envers du décor

Face à ces faits, il est important de faire la part des choses. Les articles de presse titrant que les GAFAM "écoutent vos conversations" font du sensationnalisme, car seule une petite partie des requêtes est traitée de la sorte, et il s'agit majoritairement d'enregistrements tronqués dont la durée se compte en secondes.

 

Mais les utilisateurs devraient être mieux informés de ce à quoi ils s'engagent en autorisant "la collecte de données anonymes à des fins d'amélioration du service", ou plutôt en la laissant autorisée par défaut. D'autant que ces analyses peuvent aussi avoir lieu sur leurs recherches écrites, comme précisé en amont, et ce depuis des années. Et que, même hors des situations croustillantes citées plus haut, il y a un aspect voyeuriste indéniable à l'écoute de bribes de conversations privées.

 

C'est aussi l'occasion de rappeler que si le domaine de l'intelligence artificielle a fait d'importants progrès ces dix dernières années, notamment grâce à l'évolution des GPUs pour l'apprentissage profond (deep learning), les outils que nous utilisons au quotidien dépendent encore très largement de l'intervention humaine. Et qu'il faut donc fermement dissocier ces logiciels pseudo-intelligents des êtres artificiels dotés d'une conscience propre qui peuplent les œuvres de science-fiction.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

 
media