MusiqueLM est la dernière IA générative de Google, et elle peut transformer des descriptions textuelles de complexité variable en musique haute fidélité.
MusicLM présente le processus de génération conditionnelle de musique comme une tâche de modélisation séquence à séquence hiérarchique, et il génère de la musique à 24 kHz qui reste cohérente pendant plusieurs minutes.
Les modèles texte-musique ne sont pas nouveaux, mais Google dit (via Tech Crunch) « MusicLM surpasse les systèmes précédents à la fois en qualité audio et en respect de la description textuelle. » Les exemples de sous-titres enrichis ci-dessous ont généré des extraits audio de 30 secondes :
- « La bande originale d’un jeu d’arcade. Il est rapide et optimiste, avec un riff de guitare électrique accrocheur. La musique est répétitive et facile à retenir, mais avec des sons inattendus, comme des crashs de cymbales ou des roulements de tambour.
- « Bande sonore épique utilisant des instruments d’orchestre. La pièce crée une tension, crée un sentiment d’urgence. Un chœur a cappella chante à l’unisson, cela crée un sentiment de puissance et de force.
- « C’est un morceau de musique r&b/hip-hop. Il y a un rap vocal masculin et un chant vocal féminin à la manière du rap. Le rythme est composé d’un piano jouant les accords de la mélodie avec un accompagnement de batterie électronique. L’atmosphère de la pièce est ludique et énergique. Cette pièce pourrait être utilisée dans la bande originale d’un film dramatique ou d’une émission de télévision au lycée. Il pourrait également être joué lors de fêtes d’anniversaire ou de fêtes sur la plage.
Une démo particulièrement amusante consiste à prendre une description d’un tableau et à le lâcher :
Il y a ensuite une longue génération pendant cinq minutes pour la « techno mélodique » (ci-dessous) et le « swing » :
MusicLM est capable de générer divers genres et même de reproduire le « niveau d’expérience du musicien » (par exemple, débutant, professionnel intermédiaire). À l’avenir, Google pourrait explorer la génération de paroles, l’amélioration de la qualité vocale et des taux d’échantillonnage plus élevés.
Google n’a « pas l’intention de publier des modèles à ce stade », citant le besoin de plus de travail. Plus d’exemples de musique générés peuvent être trouvé ici. Il rejoint le travail de l’entreprise sur le texte à l’image et le texte à la vidéo.
FTC : Nous utilisons des liens d’affiliation automatique générateurs de revenus. Plus.