Prospective : Ils sont d’abord venus pour notre art, puis ils sont venus pour nos textes et nos essais tronqués. Maintenant, ils viennent pour la musique, avec un « nouvel » algorithme d’apprentissage automatique qui adapte la génération d’images pour créer, interpoler et boucler de nouveaux clips et genres musicaux.

Seth Forsgren et Hayk Martiros ont adapté l’algorithme de diffusion stable (SD) à la musique, créant ainsi un nouveau type de « machine à musique » étrange. diffusion fonctionne sur le même principe que SD, transformant une invite de texte en nouveau contenu généré par l’IA. La principale différence est que l’algorithme a été spécialement formé avec des sonogrammes, qui peuvent représenter la musique et l’audio sous forme visuelle.

Comme expliqué sur le Site internet de Riffusion, un sonagramme (ou un spectrogramme pour les fréquences audio) est un moyen visuel de représenter le contenu fréquentiel d’un clip audio. L’axe X représente le temps, tandis que l’axe Y représente la fréquence. La couleur de chaque pixel donne l’amplitude de l’audio à la fréquence et à l’heure données par sa ligne et sa colonne.

2022 12 19 Image 20

Riffusion adapte la v1.5 de l’algorithme visuel Stable Diffusion « sans aucune modification », juste quelques réglages fins pour mieux traiter les images de sonogrammes/spectogrammes audio couplés avec du texte. Le traitement audio se produit en aval du modèle, tandis que l’algorithme peut également générer des variations infinies d’une invite en faisant varier la graine.

Publicité

Après avoir généré un nouveau sonagramme, Riffusion transforme l’image en son avec Torchaudio. L’IA a été formée avec des spectrogrammes représentant des sons, des chansons ou des genres, de sorte qu’elle peut générer de nouveaux clips sonores basés sur toutes sortes d’invites textuelles. Quelque chose comme « Beethoven rencontre Radiohead », par exemple, qui est un bel exemple de la façon dont les algorithmes d’apprentissage automatique d’un autre monde ou étranges peuvent se comporter.

2022 12 19 Image 21

Après avoir conçu la théorie, Forsgren et Martiros ont tout rassemblé dans une application Web interactive où les utilisateurs peuvent expérimenter l’IA. Riffusion prend des invites de texte et « génère à l’infini du contenu interpolé en temps réel, tout en visualisant la chronologie du spectrogramme en 3D ». L’audio passe en douceur d’un clip à l’autre ; s’il n’y a pas de nouvelle invite, l’application interpole entre différentes graines de la même invite.

Riffusion s’appuie sur de nombreux projets open source, à savoir Next.js, React, Typescript, three.js, Tailwind et Vercel. Le code de l’application a son propre référentiel Github ainsi que.

Loin d’être la première IA générant de l’audio, Riffusion est encore une autre progéniture de la renaissance du ML qui a déjà conduit au développement de Dance Diffusion, OpenAI’s Jukebox, Soundraw et d’autres. Ce ne sera pas le dernier non plus.

Rate this post
Publicité
Article précédentMichael Beale et les Rangers méritent votre soutien complet et total
Article suivantMeta n’abandonne pas encore le métaverse
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici