Amazon peut générer des voix artificielles personnalisées pour mieux refléter l'identité des marques

Amazon Web Services lance une nouvelle fonctionnalité, baptisée Brand Voice et basée sur le deep learning, à même de générer une voix artificielle personnalisée. Les marques peuvent ainsi proposer une expérience fidèle à leur identité sur tout le parcours client. La chaîne de fast-food KFC et la National Australia Bank en sont les premières bénéficiaires.

Amazon peut générer des voix artificielles personnalisées pour mieux refléter l'identité des marques © Boulanger / Amazon

Et si chaque marque pouvait générer une voix artificielle qui lui ressemble pour répondre à ses clients ? C’est la fonctionnalité dont Amazon Web Services a annoncé le lancement mardi 4 février 2020. Baptisée Brand Voice, elle s'appuie sur Polly, le service de synthèse vocale d'AWS.

Brand Voice permettra aux entreprises qui l’adoptent de se différencier de leurs concurrents en se dotant d'une voix à la sonorité et au ton qui leur est propre. "Cela ouvre un nombre infini de possibilités pour créer une voix sur mesure, en ligne avec la façon dont les organisations s’identifient", ont souligné dans un post de blog Rafal Kuklinski, en charge des fonctionnalités text-to-speech d’Amazon, et Ankit Dhawan, responsable produit chez Amazon Polly.

REFLéTER L’IDENTITé DE LA MARQUE

Dans une étude publiée l’an dernier, Amazon exposait ses travaux en matière de discours générés par une voix de synthèse. L’entreprise y décrivait un système à même d’apprendre une nouvelle façon de parler – intonation, accent, tessiture – en tout juste quelques heures d’entraînement. Un gain de temps considérable lorsque l’on compare ces performances avec celles des acteurs humains, à qui cela peut demander plusieurs heures de travail pour s’approprier un personnage de manière crédible.

La technologie d’Amazon repose en premier lieu sur un réseau de neurones capable de convertir des séquences phonèmes en spectrogrammes – c’est-à-dire en une représentation visuelle des fréquences sonores à mesure qu’elles varient. Un vocodeur transforme ensuite ces derniers en un signal audio continu. Le modèle d’apprentissage puise alors dans des enregistrements de voix d'acteurs dénuées d’accent et d’autres qui, au contraire, font état de telles particularités. C’est ce qui lui permet d’identifier et de reproduire les spécificités linguistiques sur des phrases qu'aucun humain n'a prononcé au préalable. Amazon s’est servi de cette méthode pour créer toute une palette de voix pour son assistant vocal Alexa, avant de proposer ce nouveau service à ces clients.

KFC et la National Australia Bank, premiers clients

Un pilote autour de ce service a été mené au Canada avec KFC. La chaîne de restauration rapide souhaitait que son application Alexa réponde avec un accent du Sud des Etats-Unis pour coller au maximum à l’image de sa mascotte, le Colonel Sanders. "Nous sommes ravis de figurer parmi les premières marques à adopter cette fonctionnalité pour créer une expérience de commande intuitive et distincte des autres", a réagi par voie de communiqué Jason Cassidy, directeur marketing chez KFC Canada. Des essais ont parallèlement été menés avec la National Australia Bank (NAB) qui, en toute logique, a fait développer un accent bien de chez elle pour les voix de son centre d’appel – dont le service client a, par ailleurs, récemment migré chez Amazon Connect.