Recevez chaque jour toute l'actualité du numérique

x

Ces start-up françaises qui clonent les voix

La voix a émergé ces dernières années comme une interface homme-machine privilégiée grâce aux progrès des smartphones et enceintes connectées. Mais les technologies de synthèse vocale restent perfectibles. Plusieurs start-up françaises travaillent à reproduire la voix humaine plus fidèlement en vue de rendre nos interactions avec les robots et les assistants vocaux plus naturelles.
Twitter Facebook Linkedin Flipboard Email
×

Ces start-up françaises qui clonent les voix
Les voix robotiques des assistants-vocaux pourraient bientôt être remplacées par des voix plus humaines, reproduites par synthèse vocale. © TeroVesalainen - Pixabay

A l’heure des assistants vocaux, les entreprises spécialisées dans les technologies de synthèse vocale se multiplient. La plupart se concentrent aujourd’hui sur les applications text-to-speech. Soit le fait de pouvoir convertir un texte en une parole au timbre générique. Mais certaines, anticipant des besoins de personnalisation, s’attachent également à reproduire la voix humaine afin de rendre les interactions uniques et plus naturelles.

 

Un traitement acoustique

Installée en Bretagne, Voxygen, spin-off d’Orange Labs, propose ainsi aux entreprises de doper leur image de marque en dotant leurs assistants vocaux du timbre de leur égérie. Pour la SNCF, cliente, la start-up a reproduit la voix de la comédienne Simone Hérault, emblématique de la compagnie, de sorte qu’elle puisse répondre à n’importe quelle question des voyageurs. Pour ce faire, Voxygen, après un premier traitement linguistique – analyse lexicale, syntaxique puis phonétique (l’étape du text-to-speech), a appliqué à la voix obtenue un second traitement, acoustique, afin de reproduire la voix cible.

 

"Il s’agit de segmenter très finement les enregistrements de la voix de Simone Hérault, de façon à couvrir l’ensemble des 1200 diphones (des paires de phonèmes) de la langue française, dans toute les configurations possibles – que la voix tombe en fin de phrase ou s’élève pour marquer l’interrogation. Puis, à l’aide du moteur de synthèse vocale, de sélectionner les unités acoustiques les plus à même de restituer la bonne prosodie afin de les joindre bout à bout pour former de nouvelles phrases fluides et expressives par concaténation, détaille Philippe Vinci, CEO de la start-up. En moyenne, moins de 4 heures d’enregistrement sont nécessaires pour parvenir à un tel résultat."

 

Une approche mathématique pour démocratiser la technologie

De son côté, la jeune pousse strasbourgeoise Candyvoice, souhaitant démocratiser le procédé, a préféré miser sur la synthèse paramétrique. S’appuyant dans un premier temps sur une solution de Microsoft pour réaliser l’étape du text-to-speech et produire une voix de synthèse générique, elle synthétise ensuite hauteur de voix, spectre vocal, analyse du signal… afin de calculer un modèle mathématique le plus fidèle possible à la voix recherchée.

 

"Au contraire de la synthèse vocale par concaténation qui nécessite de s’appuyer sur 2 000 à 10 000 phrases pour une qualité optimale, notre méthode en exige 50 fois moins. Elle permet aussi de travailler uniquement à partir de mots - une centaine environ -, explique Jean-Luc Crebouw, fondateur de Candyvoice. A l’arrivée, le résultat n’est certes pas aussi fin que par concaténation, mais la solution, plus légère, peut tourner sur des petits processeurs comme ceux des smartphones."

 

Une imitation en temps réel

Aujourd’hui, la start-up travaille essentiellement avec des acteurs du télémarketing ou des radios numériques, mais n’exclut pas de mettre un jour sa technologie au service d’un public plus large. Elle propose déjà à tout un chacun de tester sa solution en enregistrant un échantillon de sa voix sur son site ou son application mobile. L’utilisateur est ensuite invité à taper un texte de son choix qu’il pourra instantanément entendre parlé avec sa voix clonée.

 

Aujourd’hui, l’imitation prend 55 millisecondes de délai. Nous fonctionnons en temps réel”, souligne le responsable qui entrevoit déjà des débouchés dans le milieu médical : “les malades sur le point de perdre l’usage de la parole pourraient continuer à s’exprimer avec leur propre voix”. Une application qui s’esquisse déjà.

 

Redonner leur voix à certains patients

Voxygen a expérimenté auprès des CHU de Rennes et de Lille un service de création de voix personnalisées à destination des patients atteints de certains cancers ORL ou de maladies neuro-dégénératives. “Dans le cadre de visite pré-opératoires, nous avons collaboré avec des médecins et des orthophonistes pour enregistrer les voix d’une quinzaine de patients avant qu’ils n’en soient privés. Puis nous les avons reproduites pour les intégrer à une application spécialisée téléchargeable sur une tablette. En quelques fractions de secondes, le texte tapé par le patient sur son clavier est synthétisé”, souligne Philippe Vinci.

 

D’autres débouchés sont également envisagés : la technologie pourrait pénétrer le secteur des jeux video, permettant aux joueurs de prêter leur timbre aux personnages et de les animer ainsi en temps réel. “Et pourquoi pas celui des assistants vocaux et robots-compagnons, en gratifiant ces derniers de la voix d‘un membre de la famille comme on peut le voir au japon”, pointe Jean-Luc Crebouw.

 

La menace du deepfake

Prometteuse, la technologie n’en soulève pas moins des interrogations. "A l’heure de la synthèse vocale, le traitement de la voix pose de nombreuses questions au regard du droit. Si dans bien des cas, les applications envisagées sont tout à fait pertinentes, l’utilisation de caractéristiques vocales propres à une personne pose néanmoins des questions relatives à la manipulation et l’usurpation d’identité," pointe Félicien Vallet, expert technologique de la CNIL, dans un article sur le sujet.

 

"Certains de nos utilisateurs peuvent essayer de cloner la voix de tiers et de les faire parler, ils n’y parviendront pas, rassure Jean-Luc Crebouw. Chacun peut créer un compte personnel en ligne pour créer son propre modèle vocal mais ne peut reproduire n’importe quelle voix. L’utilisateur n’a pas directement accès à notre logiciel et notre solution ne fonctionne pas à partir de n’importe quel échantillon. Il faut que la personne répète un texte court et précis, que nous avons spécialement défini pour qu’il couvre l’ensemble des phonèmes de la langue française. Il ne suffit pas de donner un simple enregistrement”.

 

“Notre technologie reste très encadrée puisque nous travaillons essentiellement avec des marques, souligne de son côté Philippe Vinci. Mais la technologie est là et elle ne cesse d’évoluer. De nouvelles méthodes de synthèse vocale, basées sur des réseaux de neurones, font leur apparition”. En mars dernier, des escrocs ont eu recours à une intelligence artificielle pour contrefaire la voix d’un dirigeant d’entreprise et lui soutirer 220 000 euros, rapporte le Wall street Journal. La solution utilisée, disponible sur le marché, leur a permis, à partir d’échantillons vocaux, d’imiter le timbre et l’intonation du dirigeant jusqu’à son léger accent allemand.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

 
media