Meta annonce le premier système de traduction automatique d'une langue sans forme écrite
Les chercheurs en intelligence artificielle de Meta poursuivent leur travaux sur de nouvelles approches en matière de traduction automatique. Ils dévoilent un modèle capable de traduire la langue hokkien, pour laquelle il n'existe pas de forme écrite standardisée, vers l'anglais.
Julien Bergounhoux
Mis à jour
19 octobre 2022
Les chercheurs en intelligence artificielle de Meta dévoilent une avancée en matière de traduction automatisée ce 19 octobre 2022. Il s'agit de la prise en charge du hokkien, une langue associée à l'ethnie Hoklo, originaire de Chine, et parlée dans certaines régions de l'Empire du Milieu ainsi qu'à Taïwan (dont c'est l'une des langues officielles) et dans la plupart des pays d'Asie du Sud-Est. Le système permet de traduire du hokkien vers l'anglais et vice versa.
L'innovation est qu'il s'agit d'une langue orale, sans forme écrite formalisée. Les systèmes de traduction automatique s'appuient en effet habituellement sur la forme écrite uniquement. Même dans le cas d'une traduction de la voix à la volée, le système est découpé en briques logicielles qui gèrent la transcription de la parole en texte, la traduction, et la synthèse vocale du texte traduit en parole.
Une autre approche de la traduction
Par opposition, le projet "Universal Speech Translator" de Meta, annoncé en février, se concentre sur la traduction directe de la voix vers la voix. Son objectif affiché est de permettre en temps réel la traduction de plusieurs centaines de langues les unes vers les autres, ce qui implique notamment de ne plus passer systématiquement par l'anglais comme c'est le cas pour beaucoup de systèmes aujourd'hui. Ces derniers ne traduisent en effet pas directement le français vers le japonais par exemple, mais du français vers l'anglais, puis de l'anglais vers le japonais.
L'idée est de pouvoir prendre en charge certaines langues moins utilisées, et surtout pour lesquelles il n'existe pas de base de textes communs avec l'anglais qui puissent servir pour l'entraînement des modèles d'IA. Les équipes de Meta soulignent à juste titre que sur les 7000 langues actuellement en usage dans le monde, plus de 40% n'ont pas de forme écrite.
Un démonstrateur encore loin du temps réel
Le premier défi à relever fut donc d'entraîner ce modèle. Les chercheurs se sont appuyés sur le mandarin comme langue intermédiaire pour créer des bases de référence du hokkien vers l'anglais. Ils ont également utilisé une technique d'encodage de voix pour créer des équivalences entre échantillons vocaux hokkien et anglais. Il a aussi fallu convertir lesdits échantillons pour pouvoir les traiter, puis évaluer la qualité des traductions en résultant. Pour ce faire, Meta a utilisé un barème appellé ASR-BLEU, qui compare une transcription de la traduction automatique à une traduction humaine.
Là encore, l'absence de forme écrite de la langue rendait impossible l'approche classique, et Meta a donc développé un système pour convertir les échantillons hokkien dans un système de notation phonétique appelé Tâi-Iô. Ils ont ensuite calculé le score "BLEU" en se basant sur les syllabes. Le modèle, les données qui ont servi à l'entraîner et le benchmark pour juger de la qualité de la traduction seront mis à disposition de la communauté scientifique en open source.
Le modèle n'est capable que de traduire une seule phrase à la fois dans son état actuel, et ne fonctionne que vers et depuis l'anglais, mais Meta le présente comme une preuve que cette approche est viable. Les chercheurs comptent étendre cette technique à d'autres langues orales et ont bon espoir qu'une vraie traduction en temps réel soit possible à terme.
Ils vont notamment mettre à disposition une large base de traductions de la voix à la voix (speech-to-speech) qui ont été "data mined" par une technique développée en interne, appelée Laser. Elle contient 418 000 heures couvrant 272 paires de langues, dont plus de 8000 heures de parole en hokkien. L'objectif est que d'autres chercheurs créent leurs propres systèmes de traduction.
SUR LE MÊME SUJET
Meta annonce le premier système de traduction automatique d'une langue sans forme écrite
Tous les champs sont obligatoires
0Commentaire
Réagir