Stability AI, la startup à l’origine du générateur d’art alimenté par l’IA Stable Diffusion, a publié un modèle d’IA ouvert pour générer des sons et des chansons qui, selon elle, a été formé exclusivement sur des enregistrements libres de droits.
Appelé Stable Audio Open, le modèle génératif prend une description textuelle (par exemple, « Rythme rock joué dans un studio traité, batterie de session sur un kit acoustique ») et produit un enregistrement d’une durée maximale de 47 secondes. Le modèle a été entraîné à l’aide d’environ 486 000 échantillons provenant des bibliothèques musicales gratuites FreeSound et Free Music Archive.
Stability AI indique que le modèle peut être utilisé pour créer des rythmes de batterie, des riffs d’instruments, des bruits ambiants et des « éléments de production » pour des vidéos, des films et des émissions de télévision, ainsi que pour « éditer » des chansons existantes ou appliquer le style d’une chanson (par exemple, du smooth jazz) à une autre.
« L’un des principaux avantages de cette version open source est que les utilisateurs peuvent affiner le modèle sur leurs propres données audio personnalisées », Stability AI a écrit dans un article sur son blog d’entreprise. « Par exemple, un batteur pourrait affiner des échantillons de ses propres enregistrements de batterie pour générer de nouveaux rythmes. »
Stable Audio Open a cependant ses limites. Il ne peut pas produire de chansons complètes, de mélodies ou de voix – du moins pas de bonnes. Stability AI affirme qu’il n’est pas optimisé pour cela et suggère aux utilisateurs à la recherche de ces capacités d’opter pour le service premium Stable Audio de la société.
Stable Audio Open ne peut pas non plus être utilisé à des fins commerciales ; ses conditions d’utilisation l’interdisent. Et il ne fonctionne pas aussi bien dans les styles musicaux et les cultures ou avec des descriptions dans des langues autres que l’anglais – des biais que Stability AI attribue aux données d’entraînement.
« La source des données manque potentiellement de diversité et toutes les cultures ne sont pas représentées de manière égale dans l’ensemble de données », écrit Stability AI dans un description du modèle. « Les échantillons générés à partir du modèle refléteront les biais des données d’entraînement. »
Stabilité IA — qui a longtemps lutté pour redresser son activité en déclin – est devenu le sujet d’une controverse récemment après que son vice-président de l’audio génératif, Ed Newton-Rex, a démissionné en raison d’un désaccord avec la position de l’entreprise selon laquelle l’entraînement de modèles d’IA génératifs sur des œuvres protégées par le droit d’auteur constitue un « usage loyal ». Stable Audio Open semble être une tentative de renverser ce récit, tout en faisant de la publicité pas si subtile pour les produits payants de Stability AI.
Alors que les générateurs de musique gagnent en popularité, le droit d’auteur – et la façon dont certains créateurs de générateurs pourraient en abuser – devient un point central.
En mai, Sony Music, qui représente des artistes tels que Billy Joel, Doja Cat et Lil Nas X, envoyé une lettre à 700 entreprises d’IA mettant en garde contre « l’utilisation non autorisée » de son contenu pour former des générateurs audio. Et en mars, la première loi américaine visant à réduire les abus de l’IA dans la musique a été promulgué dans le Tennessee.