Qu’est-ce qui vient juste de se passer? Amazon a annoncé qu’il migrait son traitement d’intelligence artificielle vers des puces AWS Inferentia personnalisées. Cela signifie que les plus grands services d’inférence d’Amazon, comme l’assistant virtuel Alexa, seront traités sur du silicium spécialisé plus rapide au lieu de GPU quelque peu polyvalents.
Amazone a déjà a transféré environ 80% du traitement Alexa sur des instances Elastic Compute Cloud (EC2) Inf1, qui utilisent les nouvelles puces AWS Inferentia. Par rapport aux instances G4, qui utilisaient des GPU traditionnels, les instances Inf1 augmentent le débit de 30% et les coûts de 45%. Amazon estime qu’il s’agit des meilleures instances sur le marché pour déduire les charges de travail de traitement du langage naturel et de la voix.
Alexa fonctionne comme ceci: le boîtier du haut-parleur (ou le cylindre, comme il se peut) ne fait pratiquement rien, tandis que les processeurs AWS dans le cloud font tout. Ou pour le dire plus techniquement … le système démarre une fois que le mot de réveil a été détecté par la puce intégrée de l’Echo. Il commence à diffuser l’audio vers le cloud en temps réel. Off dans un centre de données quelque part, l’audio est transformé en texte (ceci est un exemple d’inférence). Ensuite, le sens est retiré du texte (un autre exemple d’inférence). Toutes les actions requises sont terminées, comme l’extraction des informations météorologiques du jour.
Une fois qu’Alexa a terminé votre demande, elle doit vous communiquer la réponse. Ce qu’elle est censée dire est choisi dans un script modulaire. Ensuite, le script est transformé en fichier audio (un autre exemple d’inférence) et envoyé à votre appareil Echo. L’Echo lit le fichier et vous décidez d’apporter un parapluie pour travailler avec vous.
De toute évidence, l’inférence est une grande partie du travail. Il n’est pas surprenant qu’Amazon ait investi des millions de dollars dans la fabrication des puces d’inférence parfaites.
En parlant de cela, les puces Inferentia sont composées de quatre NeuronCores. Chacun implémente un «moteur de multiplication matricielle systolique haute performance». Plus ou moins, chaque NeuronCore est composé d’un très grand nombre de petites unités de traitement de données (DPU) qui traitent les données de manière linéaire et indépendante. Chaque puce Inferentia dispose également d’un énorme cache, ce qui améliore les latences.