VALL-E : l’IA qui imite une voix à partir de 3 secondes d’enregistrement

Début janvier, Microsoft a présenté VALL-E, un modèle d’intelligence artificielle de synthèse vocale capable d’imiter une voix à partir d’un enregistrement de 3 secondes seulement. Une technologie aussi précieuse qu’inquiétante.

 

Partager
VALL-E : l’IA qui imite une voix à partir de 3 secondes d’enregistrement

Après DALL-E, qui génère des images, et ChatGPT, le robot conversationnel qui rédige tout type de textes (de la dissertation de philo aux codes informatiques complexes), développés par OpenAI, Microsoft complète la famille des IA avec VALL-E, un modèle d’intelligence artificielle de synthèse vocale particulièrement efficace.

Mis en ligne sur GitHub par Microsoft et décrit dans un document de quinze pages rédigé par les ingénieurs à l’origine du projet, publié sur le site de recherche arXiv le 5 janvier, ce "modèle de langage à codecs neuronaux" permet d’imiter une voix grâce à un échantillon de 3 secondes seulement. Après l'avoir écoutée, il peut la reproduire en lisant un texte. VALL-E conserve le ton, le timbre et reproduit même l’environnement acoustique de l’audio d’origine (une voix compressée dans un appel téléphonique par exemple).

La démo de VALL-E accessible à tous

VALL-E s’est fait la main (ou plutôt la voix) en s'entraînant sur la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox. "Un entraînement des centaines de fois plus important que pour les systèmes existants", soulignent les chercheurs.

Pour les plus curieux, la démo de VALL-E, publiée sur GitHub, permet d'observer le fonctionnement de l'IA avec divers exemples. Et il faut avouer que c'est assez impressionnant, bien que les chercheurs s’attèlent à "améliorer les performances du modèle en matière de prosodie et de style d'expression", notamment à corriger certaines mauvaises prononciations. Par ailleurs, l’IA aurait du mal avec certains accents, tous n’étant pas répertoriés dans la bibliothèque LibriLight.

Risque d’usurpation d’identité

Tout comme ChatGPT, VALL-E a suscité une vague d’inquiétude. Car si son énorme potentiel pourrait être très utile aux personnes ayant perdu la capacité de parler à la suite d’une maladie par exemple, ou simplement pour délivrer un message que l’on a écrit à l’oral, on peut aussi facilement imaginer des usurpations d'identité entre des mains malhonnêtes.

Dans une note sur l’éthique de leur outil, les développeurs de Microsoft, conscients que VALL-E "peut comporter des risques potentiels de mauvaise utilisation" assurent que "si le modèle est généralisé à des locuteurs invisibles dans le monde réel, il devrait inclure un protocole pour s'assurer que le locuteur approuve l'utilisation de sa voix".

Comme le rappelle cependant le média américain TechCrunch, "VALL-E est plus itératif que révolutionnaire et ses capacités ne sont pas aussi nouvelles qu’on pourrait le croire", l’imitation de la voix faisant l'objet de recherches intensives depuis plusieurs années. Certaines étant suffisamment abouties pour alimenter de nombreuses start-ups comme WellSaid, Papercup et Respeecher, cette dernière étant déjà utilisée pour créer des reproductions vocales autorisées d'acteurs du cinéma.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS