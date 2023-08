Les musiciens et les sound designers ont un nouveau concurrent. Alors que de plus en plus de professions créatives s'inquiètent de l'essor de l'IA générative, Meta a annoncé le 2 août dans une note de blog le lancement d'AudioCraft, son système basé sur l'intelligence artificielle capable de "générer un son et une musique réalistes et de haute qualité à partir d'entrées textuelles d'utilisateurs". Deux outils open-source en font partie : MusicGen et AudioGen.



Le premier, entrainé sur quelque 20 000 heures de musiques détenues par Meta ou faisant l'objet de licences spécifiques, produit des morceaux variés à la demande de l'internaute. De son côté, AudioGen permet de créer des bruitages en tout genre, de l'aboiement d'un chien au klaxon d'une voiture en passant par la rafale de vent. Meta précise que ces modèles sont disponibles à des fins de recherche "et pour permettre aux gens de mieux comprendre la technologie".

Des extraits plus ou moins convaincants

"Si l'IA générative a suscité beaucoup d'enthousiasme pour les images, la vidéo et le texte, l'audio a toujours semblé un peu à la traîne", écrit la firme de Mark Zuckerberg. Nettement plus complexe que la génération de texte, la génération d'audio représente en effet des séquences de données particulièrement longues.



Pensés pour rattraper ce retard, MusicGen et AudioGen s'appuient sur le réseau neuronal EnCodec, lancé en octobre 2022 par Meta et basé sur l'intelligence artificielle. Composé d'un encodeur, d'un quantificateur et d'un décodeur, il a été nettement amélioré ces derniers mois, annonce l'entreprise.



Meta a présenté plusieurs exemples de contenus audio générés artificiellement à partir de prompts textuels. En cinq secondes, celui d'une sirène de police et d'un moteur de voiture au loin est convaincant. En ce qui concerne la musique, la société californienne fait entendre un morceau pop composé pour être "parfait pour la plage", mais qui ressemble grossièrement à ces musiques libres de droit dont raffolent les agences de voyage sur YouTube.

L'open-source comme horizon d'amélioration

Le défi est de taille et Meta le sait. À ce stade, "ces approches ne permettent pas de saisir pleinement les nuances expressives et les éléments stylistiques présents dans la musique", reconnaît l'entreprise. Son intelligence artificielle doit continuer à se nourrir de musiques composées par des humains. Meta n'a jusqu'ici pas dévoilé de chansons avec des paroles mais cela pourrait être un point d'attention de l'entreprise, laquelle a lancé en juin Voicebox, un outil d'IA générative capable de lire avec différentes voix des textes soumis par ses utilisateurs.



D'ici là, Meta travaille sur AudioGen et MusicGen "à l'amélioration des modèles actuels en augmentant leur vitesse et leur efficacité" ainsi qu'à la résolution de biais. "Nous reconnaissons que les ensembles de données utilisés pour former nos modèles manquent de diversité, écrit encore la société-mère de Facebook et Instagram. En particulier, l'ensemble de données musicales utilisé contient une plus grande proportion de musique de style occidental et ne contient que des paires audio/texte dont le texte et les métadonnées sont rédigés en anglais."



À cet égard, Mark Zuckerberg et ses employés comptent sur le déploiement en open-source de leurs nouveaux outils pour créer différemment. Les personnes intéressées par ces innovations sont invitées à "construire de meilleurs générateurs de sons, algorithmes de compression ou générateurs de musique" à partir du code d'AudioGen et MusicGen.