Google passe une étape clé pour son projet de traducteur oral gérant 1000 langues

Google Research a dévoilé de nouveaux détails sur son projet de modèle d'intelligence artificielle pour la parole, capable de transcrire et traduire les 1000 langues les plus parlées dans le monde. Entraîné sur 12 millions d'heures de données vocales et 28 milliards de phrases textuelles, il serait d'ores et déjà capable de prendre en charge 100 langues.

Partager
Google passe une étape clé pour son projet de traducteur oral gérant 1000 langues

Google avance dans la mission qu’il s’est donné de construire un modèle d’IA dédiée à la communication orale et capable de traduire 1000 langues entre elles. Lundi 6 mars 2023, Yu Zhang et James Qin, respectivement chercheur et ingénieur logiciel chez Google Research, ont publié un billet de blog détaillant l'avancée d ce projet annoncé en novembre 2022.

Ils décrivent le modèle universel de parole (USM) comme "une famille de modèles vocaux de pointe" comprenant 2 milliards de paramètres entraînée sur 12 millions d’heures de parole enregistrées et 28 milliards de phrases de texte, dans 300 langues. Pour l’heure, il serait fonctionnel sur une centaine d'entre elles.

Principal frein : le manque de données sur certaines langues

Parmi ces 1000 langues, il y en a des très parlées comme l’anglais et le mandarin et d'autres sous-utilisées telles que le cebuano ou l’azerbaïdjanais. Le billet explique que certaines sont parlées par moins de 20 millions de personnes.

Et c’est là que se trouve le principal défi du projet. Dans un modèle classique d’apprentissage, le manque de données vocales et textuelles disponibles rend difficile la formation de l’IA. Google a donc choisi un apprentissage en trois étapes. D’abord, un pré-entraînement non supervisé qui s’appuie sur des données audio.

Il améliore ensuite le modèle en l’entrainant sur des données vocales non étiquetées, des données vocales étiquetées et des données textuelles. Et enfin, il ajoute un entraînement supervisé à certaines tâches, et un réglage fin sur un ensemble plus restreint de données étiquetées.

L’objectif est évidemment est d’intégrer ce modèle à l’intérieur de ses produits, notamment YouTube et Google traduction. Pour le moment, alors qu’il y a 7000 langues dans le monde, ce dernier n’en prend que 130 en charge.

Meta travaille évidemment sur un projet similaire. L’entreprise a annoncé, à la fin de l’année dernière, avoir créé un modèle capable de traduire la langue hokkien, pour laquelle il n’existe pas de forme écrite standardisée vers l’anglais. Ceci serait le cas pour 40% des 7000 langues parlées dans le monde.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

ARTICLES LES PLUS LUS