Stable Open Small : Stability AI lance un modèle text-to-audio capable de tourner sur smartphone

Sa petite taille et sa rapidité d’inférence en font un excellent choix pour un déploiement directement sur appareil, à commencer par les smartphones équipés d’un processeur Arm. En s'associant au concepteur, Stability AI espère ainsi dégager une nouvelle source de revenus afin de remonter doucement la pente.

Partager
Stable Open Small : Stability AI lance un modèle text-to-audio capable de tourner sur smartphone

Si les progrès en matière de modèles de génération d'audio se font plus rares, ils sont tout de même notoires. Stability AI est de ceux qui participent à ces avancées avec son dernier modèle Stable Open Small, un modèle text-to-audio de 341 millions de paramètres, optimisé pour fonctionner entièrement sur des processeurs Arm. Ses points forts ? Conçu pour générer rapidement de courts extraits audio, il peut produire jusqu’à 11 secondes de son sur un smartphone en moins de 8 secondes.

Basée sur le modèle text-to-audio Stable Audio Open (1,1 milliard de paramètres pour sa part), cette variante compacte est donc plus petite et plus rapide, tout en conservant la qualité de sortie et la fidélité aux instructions textuelles, promet la start-up. Cette annonce s'inscrit dans le cadre du partenariat plus large de la société d'IA avec Arm afin de faire fonctionner ses modèles sur les processeurs de ce dernier. Lors du Mobile World Congress, les deux entreprises en avaient fait l'annonce, mettant en avant la technologie Arm KleidiAI permettant la génération audio par IA directement sur un smartphone.

Quelques limites inhérentes au modèle

Autre point fort de ce modèle : les données d'entraînement de Stable Audio Open Small sont des morceaux issus des bibliothèques audio libres de droits Free Music Archive et Freesound. Autrement dit, pas de problème de droit d'auteur. Et c'est bien cela qui permet à la start-up de se démarquer d'autres acteurs comme Suno et Udio, deux entreprises spécialisées dans la production de musique par IA générative, aujourd'hui attaquées en justice par les grandes maisons de disques. Cependant, le modèle possède quelques limites. Il ne prend en charge que des invites textuelles en anglais pour l'heure.

Par ailleurs, si Stability a fait le choix de le publier en open source sous la licence permissive Stability AI Community License, le modèle est soumis n'est pas gratuit pour tous. Son utilisation est en effet gratuite pour les chercheurs, les amateurs et les entreprises dont le chiffre d'affaires annuel est inférieur à 1 million de dollars. Les poids du modèle peuvent être téléchargés sur Hugging Face tandis que le code source est disponible sur GitHub.

SUR LE MÊME SUJET

Sujets associés

NEWSLETTER L'Usine Digitale

Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.

Votre demande d’inscription a bien été prise en compte.

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes...

Votre email est traité par notre titre de presse qui selon le titre appartient, à une des sociétés suivantes du : Groupe Moniteur Nanterre B 403 080 823, IPD Nanterre 490 727 633, Groupe Industrie Service Info (GISI) Nanterre 442 233 417. Cette société ou toutes sociétés du Groupe Infopro Digital pourront l'utiliser afin de vous proposer pour leur compte ou celui de leurs clients, des produits et/ou services utiles à vos activités professionnelles. Pour exercer vos droits, vous y opposer ou pour en savoir plus : Charte des données personnelles.

CHERCHE TALENTS NUMERIQUE

Les formations USINE DIGITALE

Toutes les formations

ARTICLES LES PLUS LUS