La pépite française Audionamix met le deep learning au service des DJ

On parle beaucoup de la vision par ordinateur, mais le deep learning peut aussi faire des prouesses pour le son. Preuve en est, la pépite française Audionamix, pionnière de la séparation de sources musicales. Sa technologie est capable d'isoler en temps réel des basses, de la batterie ou une voix depuis une piste musicale. Une technologie qu'elle destine aux professionnels du son, comme les DJ ou remixeurs, mais aussi aux grands studios de cinéma et labels musicaux.

La pépite française Audionamix met le deep learning au service des DJ © Audionamix

La pépite française Audionamix commercialise un logiciel innovant capable de séparer des sources musicales dans une piste : batterie, basses ou voix. Elle utilise pour ce faire des techniques de deep learning. Nous avons pu nous entretenir avec elle pour revenir sur son histoire et évoquer sa stratégie à l’occasion d’une matinée Deep Tech organisée par Cap Digital le 10 mars.

Un spécialiste historique de la séparation des sources musicales

L’entreprise a été fondée à l’origine en 2003, sous le nom de MIST Technologies. Elle a commencé par développer une technologie de séparation de voix chantée qui se destinait aux professionnels du cinéma. Elle a notamment été utilisé pour les films Inception et La Môme. Il s’agissait dans les deux cas d’isoler la voix d’Édith Piaf sur de vieux enregistrements pour la remoduler en fonction des éléments du film.

Elle se renomme Audionamix en 2009 et élargi son offre aux autres professionnels du son avec le logiciel Trax, capable aussi de distinguer et d’isoler la voix parlée. "C’était basé sur des méthodes de machine learning rudimentaires, mais nous étions pionniers à l’époque", commente Nicolas Cattaneo, CTO d’Audionamix.

à la conquête des DJ et remixeurs

En décembre 2017, la société pivote vers le marché de la musique et lance Xtrax Stems, qui s'adresse aux DJ et remixeurs. Il intègre les premières techniques de deep learning pour effectuer la séparation de la batterie du reste du son. Petit à petit, les réseaux de neurones remplacent l'ancienne technologie, et en 2019 l'entreprise change de business model pour se tourner vers le Software-as-a-Service. "Cela nous permet de faire évoluer le logiciel beaucoup plus vite, explique Nicolas Cattaneo. Nos algorithmes sont mis à jour régulièrement, ça tourne 100% sur GPU, et on gère la séparation des basses en plus de la voix et la batterie."

Cette nouvelle version est disponible depuis le 1er mars 2020 et est proposée pour 60 euros par an. Audionamix prévoit d'ores et déjà d'améliorer ses réseaux de neurones en cours d'année, et compte impliquer ses utilisateurs en amont du développement de nouvelles fonctionnalités, pour créer une communauté active. L'une des pistes envisagées est la création musicale professionnelle, pour permettre aux DJ de créer des samples et des drumkits plus facilement. En parallèle, elle commercialise toujours sa technologie de séparation en temps réel de voix parlée sous forme de logiciel individuel, baptisé Instant Dialogue Cleaner.

Une succursale à Los Angeles en charge des services aux grands studios et labels

Le siège de l'entreprise se trouve à Paris, où elle réalise l'intégralité de sa R&D, mais elle dispose aussi d'un bureau à Los Angeles pour les services aux professionnels. Chaque établissement emploie huit personnes. "Nous gardons nos meilleurs algorithmes pour les clients professionnels, que ce soient les grands studios ou les labels", confesse le CTO.

Elle a par exemple travaillé il y a quelques temps sur la série Alerte à Malibu pour permettre au studio de continuer à diffuser des épisodes qui utilisaient de la musique dont il avait perdu les droits d'exploitation. "Nous avons aussi récemment travaillé sur un documentaire à propos de Stanley Kubrick, dont l'avant-première aura lieu le 17 mars. Nous avons isolé sa voix sur de nombreux enregistrements séparés, puis elle a été rendu uniforme pour en faire la voix off du film," détaille Nicolas Cattaneo.

Audionamix réfléchit par ailleurs sur de nouveaux axes de développement, dont la restauration professionnelle de films, toujours basée sur des approches innovantes grâce au deep learning. Elle développe aussi des outils pour que les grands studios puissent intégrer ses technologies directement dans leurs systèmes, les problématiques de droits et de sécurité des données écartant la possibilité d'envoyer des fichiers sur un cloud public.