TL ; RD : Encodec est un codec audio de nouvelle génération basé sur une conception de réseau neuronal complexe, un système qui peut compresser beaucoup de jus audio dans un espace de stockage minimal. Le codec fonctionnerait pour les expériences Metaverse et l’optimisation des appels téléphoniques mobiles.
Grâce à sa haute efficacité et à la prise en charge intégrée par des produits emblématiques comme l’éternel lecteur Winamp, le codec MP3 est devenu la norme de facto pour le partage de fichiers audio sur Internet au cours des années 90 et au-delà. Désormais, un nouveau codec veut refaire l’histoire en offrant des gains encore plus extrêmes en termes d’efficacité et d’économie de bande passante. Le secret est un algorithme d’IA capable d' »hypercompresser » les flux audio.
Méta-chercheurs conceptualisé Encodec comme solution potentielle pour prendre en charge des expériences de haute qualité « actuelles et futures » dans le métaverse. La nouvelle technologie est un réseau neuronal formé pour « repousser les limites de ce qui est possible » dans la compression audio pour les applications en ligne. Le système peut atteindre « un taux de compression d’environ 10x » par rapport à la norme MP3.
Meta a formé l’IA « de bout en bout » pour atteindre une taille cible spécifique après compression. Encodec peut compresser un flux de données MP3 de 64 Kbps en 6 Kbps, ce qui signifie qu’il n’a besoin que de 6 144 octets (oui, octets) pour conserver la même qualité que l’original. Les chercheurs disent que le codec peut compresse Échantillons audio stéréo 48 kHz pour la parole – une première dans l’industrie.
L’approche basée sur l’IA peut « compresser et décompresser l’audio en temps réel pour des réductions de taille à la pointe de la technologie », avec des résultats potentiellement incroyables, comme le montre l’exemple partagé sur le blog IA de Meta. Les codecs classiques comme MP3, Opus ou EVS décomposent le signal entre différentes fréquences et encodent aussi efficacement que possible en tirant parti de la psychoacoustique (l’étude de la perception sonore humaine). Les méthodes d’Encodec sont basées sur une conception complexe comprenant trois parties : l’encodeur, le quantificateur et le décodeur.
L’encodeur prend des données non compressées et les transforme en une représentation de dimension supérieure et de fréquence d’images inférieure. Le quantificateur comprime ce flux à la taille cible tout en conservant les informations les plus vitales pour reconstruire le signal d’origine. Enfin, le décodeur transforme le signal compressé en une forme d’onde « aussi similaire que possible à l’original ».
Le modèle d’apprentissage automatique d’Encodec identifie les changements audio qui sont imperceptibles pour les humains, en utilisant des discriminateurs pour améliorer la qualité perçue des sons générés. Meta a décrit ce processus comme un « jeu du chat et de la souris », le discriminateur faisant la différence entre les échantillons originaux et reconstruits. Le résultat final est une compression audio supérieure dans la parole à faible débit (1,5 kbps à 12 kbps).
Encodec peut encoder et décoder des données audio en temps réel sur un seul cœur de processeur, a déclaré Meta, et il offre toujours de nombreux domaines d’amélioration pour des tailles de fichiers encore plus petites. Au-delà de la prise en charge des expériences Metaverse de nouvelle génération sur les connexions Internet actuelles, le nouveau modèle pourrait potentiellement garantir des appels téléphoniques de meilleure qualité dans les zones où la couverture mobile est tout sauf optimale.