Recevez chaque jour toute l'actualité du numérique

x

Amazon dote Alexa d’une fonctionnalité de traduction de conversation en temps réel

Amazon lance une fonctionnalité pour son assistant Alexa qui lui permet de traduire en direct une conversation entre deux personnes parlant une langue différente. Elle est disponible sur les enceintes Echo, et pour le moment uniquement aux Etats-Unis.
Twitter Facebook Linkedin Flipboard Email
×

Amazon dote Alexa d’une fonctionnalité de traduction de conversation en temps réel
Amazon dote Alexa d’une fonctionnalité de traduction de conversation en temps réel © Amazon

Un interprète nommé Alexa. Sur un billet de blog publié le 14 décembre sur Amazon Science, le géant américain détaille une nouvelle compétence disponible pour le moment aux Etats-Unis. Alexa, son assistant intelligent, est désormais capable de traduire en temps réel une conversation entre deux personnes ne s’exprimant pas dans la même langue.

Cette fonctionnalité, baptisée Live Translation et accessible sur la gamme d’enceintes connectées Echo, prend en charge la traduction entre l’anglais (américain) et le français, l’allemand, l’hindi, l’italien, l’espagnol ou le portugais brésilien.

Une traduction visualisable sur Echo Show
Pour commencer, il faut que l’utilisateur demande à Alexa de servir d'interprète pour la langue de son interlocuteur. Alexa identifie automatiquement la personne dont elle doit traduire les paroles et elle joue alors le rôle d'interprète et traduit les paroles prononcées par les deux parties. A noter que les propriétaires d’Echo Show peuvent également visualiser la traduction.

"Les outils parallèles de reconnaissance vocale, l’identification des langues et les modèles de traduction adaptés à la parole conversationnelle font partie des modifications qui rendent possible la traduction en direct", expliquent Shirin Saleem (Alexa AI) et Roland Maas (Alexa Speech) sur le blog.

Des technologies Amazon combinées
Cette fonctionnalité s’appuie sur différentes technologies développées par Amazon dont le système ASR (pour Automatic Speech Recognition) d’Alexa, Amazon Translate et le système de synthèse vocale d'Alexa, avec l'architecture globale et les modèles d'apprentissage automatique conçus et optimisés pour la traduction des conversations.

Au cours de la session, Alexa exécute deux modèles ASR ainsi qu'un modèle distinct pour l'identification de la langue. La toute première parole est analysée par les deux modèles ASR mais l’identification de la langue envoie un seul modèle au moteur de traduction. "Cette mise en œuvre parallèle est nécessaire pour maintenir une latence acceptable de la demande de traduction car attendre de commencer la reconnaissance vocale jusqu'à ce que le modèle d'identification de langue ait renvoyé un résultat retarderait la lecture de la phrase traduite", poursuivent les chercheurs. Par ailleurs soulignent-ils, les données ASR sont pertinentes dans le cas de "locuteurs non natifs", qui parlent une langue qui n’est pas leur langue maternelle.

Les temps de silence analysés
Ces données ASR sont traitées et envoyées à Amazon Translate. La traduction est ensuite transmise au système de synthèse vocale d'Alexa pour lecture. Dans le détail, le modèle acoustique convertit la phrase en phonèmes, le modèle de langage encode les probabilités de chaînes particulières de mots, et le système ASR décide de la meilleure interprétation pour former et une phrase. Chacun des systèmes ASR comprend deux types de modèles de langage : un modèle de langage traditionnel, qui encode les probabilités pour des chaînes de mots relativement courtes (généralement autour de quatre), et un modèle de langage neuronal pour des constructions plus complexes.

Alexa doit par ailleurs déterminer le moment où l’utilisateur a fini de parler. Pour cela, l’assistant doit être capable de faire la différence entre les fins de phrases et les pauses et silences que l’on fait naturellement dans une conversation. La traduction en temps réel nécessite une modification de ce qu’Amazon nomme "pointeur" afin qu’Alexa laisse le temps nécessaire aux utilisateurs "de formuler leurs pensées".

Le déploiement de Live Translation dans d’autres pays n’est pas mentionné. Pour rappel, Google a lancé en 2019 un mode interprète similaire via son Assistant et compatible Android et iOS.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

 
media