Actualité web & High tech sur Usine Digitale

Recevez chaque jour toute l'actualité du numérique

x

Interfaces vocales : pour contrer GAFAM et BATX, les acteurs français lancent Le Voice lab

Pour ne plus dépendre des solutions fournies par les Gafam et les Batx, les acteurs français du commerce vocal s’associent au sein du Voice lab pour créer notamment un tronc commun de 100 000 heures de données vocales en français sur lesquelles entraîner leurs technologies vocales. Des start-up (Voxist, Snips, Smartly.AI, batvoice...),  des éditeurs de logiciels (Linagora…) et des institutionnels (LIMSI, Université Paris Dauphine….) ont déjà rejoint l’initiative. A l’avenir, celle-ci devrait gagner l’échelle européenne.
Twitter Facebook Linkedin Flipboard Email
×

Interfaces vocales : pour contrer GAFAM et BATX, les acteurs français lancent Le Voice lab
Alexa, d'Amazon © Amazon

Les acteurs français donnent de la voix. Pour contrer les Gafam (Google, Amazon, Facebook, Apple et Microsoft) et les Batx (Baidu, Alibaba, Tencent et Xiaomi), qui trustent le marché du commerce vocal (estimé à 40 milliards de dollars en 2022), start-up, PME, instituts de recherches universitaires… ont décidé de se réunir en consortium. Baptisée Le Voice lab, l’initiative est née en avril 2019.


L’idée est venue il y a près d’un an, se souvient Karel Bourgois, co-fondateur de la start-up Voxist et président du Voice lab. J’ai lancé ma société fin 2016 avec, comme offre de service, la création d’un répondeur téléphonique qui puisse interagir avec ses utilisateurs. J’avais donc besoin d’un certain nombre de technologies vocales, dont la majeure partie était fabriquée aux Etats-unis ou en Asie”. Par soucis d’indépendance et de sécurité, le dirigeant préférait recourir à des technologies locales, sinon les fabriquer.
 

"En en parlant autour de moi, je me suis rendu compte qu’il existait, en France, un marché très fragmenté, confronté aux mêmes problématiques. Au lieu de réinventer chacun la roue dans notre coin, nous avons donc décidé de nous associer”, ajoute le responsable. De 4 ou 5 acteurs à ses débuts, le Voice lab rassemble aujourd’hui une vingtaine d’instituts de recherches et de sociétés. “Et une vingtaine d’autres se montre déjà intéressée”, se réjouit Karel Bourgois.

 

Créer un tronc commun de 100 000 heures de données vocales en français

L’initiative se présente comme “une fusée à trois étages”.  Premier objectif : constituer un registre commun de données vocales en français capables de répondre aux exigences du marché hexagonal. “L’intelligence artificielle, sur laquelle se base les technologies de reconnaissance et de synthèse vocales, a fortement progressé ces cinq dernières années, mais il manque toujours une base de données solide pour pouvoir les entraîner”, explique Karel Bourgois.


Un leader comme Google peut s’appuyer - entre autres - sur les millions de données vocales issues de sa filiale Youtube. Un autre, comme l’acteur chinois Baidu, "totalise près de 100 000 heures (toutes langues confondues) pour entraîner ses réseaux de neurones, quand on compte seulement 900 heures de données publiques vocales en français", déplore Karel Bourgois. Un chiffre d’autant plus faible que sur ces 900 heures, une bonne partie, dédiée à la recherche, n’est pas commercialement exploitable. "De plus, il s’agit de données réunies dans les années 70, avec un vocabulaire aujourd’hui obsolète…", précise le responsable. Le Voice lab s’apprête donc à créer un tronc commun de 100 000 heures de données variées et équilibrées en français. "Soit, contenant autant de voix d‘hommes que de femmes, de tous âges, et comprenant les différents accents régionaux…”, souligne Yann Lechelle, COO de la start-up Snips, acteur du projet.


Pour parvenir à reconstituer un tel échantillon, le Voice lab intègre, outre les fournisseurs de technologies vocales, des entreprises bénéficiaires qui pourraient fournir les données vocales dont elles disposent. Des acteurs, comme la start-up Candyvoice, qui a développé une technologie d’imitation vocale en temps réel, pourrait également contribuer activement à l’élaboration du lexique en créant différentes voix de synthèse à partir de textes. Enfin, "nous visons un partenariat avec l’INA et France Télévisions pour qu’ils nous laissent accéder à la partie audio de leurs archives", précise Karel Bourgois.
 

Créer un moteur de reconnaissance vocale généraliste

Outre ce panel, le Voice lab entend également faciliter la tâche des entreprises françaises en mettant à leur disposition un panel de briques technologiques, souvent complexes, nécessaires à la création de nouvelles applications. Des technologies de diction, synthèse et reconnaissance vocales… seront donc créées en interne, en alternative aux systèmes des grands acteurs industriels américains (GAFAM) et chinois (BATX) concurrents, dont les entreprises dépendent aujourd’hui. Celles-ci seront disponibles via une plateforme, sous forme d’API, afin que les sociétés intéressées puissent en faire directement usage.


Aujourd’hui, le modèle économique n’est pas encore fixé. Les jeux de données et outils créés par le consortium seront soit disponibles en open source, soit sous licence privilégiée. “Certains livrables pourraient faire de la concurrence aux offres de certains des membres, mais in fine l’objectif est d’abaisser la barrière à l’entrée et de permettre au plus grand nombre d’acteurs locaux d’apporter de l’innovation dans cette industrie émergente”, rassure Yann Lechelle.

 

Lancer une marketplace pour contrer la fragmentation de l’écosystème

Le Voice lab devrait d’ailleurs donner aux divers acteurs la possibilité de se démarquer. Ou tout du moins de gagner en visibilité grâce au lancement d’une place de marché. "C’est notre 3e objectif : il s’agit de recréer une sorte de Google Cloud où l’ensemble des acteurs du marché peuvent mettre en ligne leurs services et permettre ainsi aux sociétés consommatrices de trouver chaussure à leurs pieds, résume Karel Bourgois, de Voxist.


Et d'ajouter  : "Aujourd’hui, l’écosystème français et européen est constitué d’une myriade d’acteurs spécialisés, de petite ou moyenne taille, souvent méconnus. Les sociétés du CAC 40 qui veulent installer des agents conversationnels en interne se tournent donc plutôt vers de gros acteurs aisément identifiables comme Google ou Amazon, dont le panel de services s’avère très large. C’est la solution de facilité”. Mais aux dépens des questions de sécurité et de souveraineté...

 

"Les assistants vocaux pénètrent progressivement les entreprises qui ne tiennent pas à ce que leurs données économiques ou critiques soient captées par les Gafam, pointe Katya Lainé, co-fondatrice de la start-up Kwalys. Il ne faudrait pas qu’elles se fassent désintermédier en étant obligées de passer par des tiers, fournisseurs de services vocaux, dont les politiques de data priviacy ne sont pas encore bien régulées”. Afin d’assurer la sécurité de ces données, le Voice lab s’est notamment rapproché d’Huma-Num, une très grande infrastructure de recherche (TGIR) reposant sur des services numériques locaux et pérennes à l’échelle nationale et européenne, qui prêtera sa puissance de calcul et de stockage au consortium.


Aujourd’hui, le projet est essentiellement français, mais "nous sommes en train de nous coordonner avec d’autres acteurs comme la Finlande", précise Karel Bourgois. A terme, l’objectif est d’élargir la plateforme au niveau européen et le lexique à une cinquantaine de langues.

Réagir

* Les commentaires postés sur L’Usine Digitale font l’objet d’une modération par l’équipe éditoriale.

 
media
Suivez-nous Suivre l'Usine Digitale sur twitter Suivre l'Usine Digitale sur facebook Suivre l'Usine Digitale sur Linked In RSS Usine Digitale