Toutes les sessions de Transform 2021 sont disponibles à la demande dès maintenant. Regarde maintenant.
Google aujourd’hui détaillé Flux sonore, un codec audio « neural » de bout en bout qui peut fournir un son de meilleure qualité tout en encodant différents types de sons, notamment une parole claire, une parole bruyante et réverbérante, de la musique et des sons environnementaux. L’entreprise affirme qu’il s’agit du premier IA-un codec optimisé pour travailler sur la parole et la musique tout en pouvant fonctionner en temps réel sur un processeur de smartphone en même temps.
Les codecs audio compressent l’audio pour réduire les besoins élevés en stockage et en bande passante. Idéalement, l’audio décodé devrait être perceptiblement indiscernable de l’original et introduire peu de latence. Alors que la plupart des codecs tirent parti de l’expertise du domaine et des pipelines de traitement du signal soigneusement conçus, il y a eu un intérêt pour le remplacement des spécifications artisanales par une IA qui peut apprendre à coder à la volée.
Plus tôt cette année, Google a publié Lyre, un codec audio neuronal formé pour compresser la parole à faible débit. SoundStream étend ce travail avec un système composé d’un encodeur, d’un décodeur et d’un quantificateur. L’encodeur convertit l’audio en un signal codé qui est compressé à l’aide du quantificateur et reconverti en audio à l’aide du décodeur. Une fois entraînés, l’encodeur et le décodeur peuvent être exécutés sur des clients distincts pour transmettre l’audio sur Internet, et le décodeur peut fonctionner à n’importe quel débit.
Compression audio
Dans les pipelines de traitement audio traditionnels, la compression et l’amélioration, c’est-à-dire la suppression du bruit de fond, sont généralement effectuées par des modules différents. Mais SoundStream est conçu pour effectuer la compression et l’amélioration en même temps. À 3 kbps, SoundStream surpasse le populaire codec Opus à 12 kbps et se rapproche de la qualité d’EVS à 9,6 kbps tout en utilisant 3,2 à 4 fois moins de bits, selon Google. De plus, SoundStream fonctionne mieux que la version actuelle de Lyra lorsqu’il est comparé au même débit.
Voici l’audio de référence avant le traitement avec SoundStream :
Et voici l’audio après traitement :
Google prévient que SoundStream est encore au stade expérimental. Cependant, la société prévoit de publier une version mise à jour de Lyra qui intègre ses composants pour offrir à la fois une qualité audio supérieure et une « complexité réduite ».
« Une compression efficace est nécessaire chaque fois que l’on a besoin de transmettre de l’audio, que ce soit lors de la diffusion d’une vidéo ou lors d’une conférence téléphonique. SoundStream est une étape importante vers l’amélioration des codecs audio basés sur l’apprentissage automatique. Il surpasse les codecs de pointe, tels que Opus et EVS, peut améliorer l’audio à la demande et ne nécessite le déploiement que d’un seul modèle évolutif, plutôt que de nombreux », ont écrit le chercheur Google Neil Zeghidour et le chercheur Marco Tagliasacchi dans un article de blog. « En intégrant SoundStream à Lyra, les développeurs peuvent tirer parti des API et des outils Lyra existants pour leur travail, offrant à la fois de la flexibilité et une meilleure qualité sonore.
VentureBeat
La mission de VentureBeat est d’être une place publique numérique pour les décideurs techniques afin d’acquérir des connaissances sur la technologie transformatrice et d’effectuer des transactions. Notre site fournit des informations essentielles sur les technologies et les stratégies de données pour vous guider dans la gestion de vos organisations. Nous vous invitons à devenir membre de notre communauté, pour accéder à :
- des informations à jour sur les sujets qui vous intéressent
- nos newsletters
- contenu de leader d’opinion fermé et accès à prix réduit à nos événements prisés, tels que Transformer 2021: Apprendre encore plus
- fonctionnalités de mise en réseau, et plus