Qu’est-ce qui vient juste de se passer? Amazon a annoncé qu’il migrait son traitement d’intelligence artificielle vers des puces AWS Inferentia personnalisées. Cela signifie que les plus grands services d’inférence d’Amazon, comme l’assistant virtuel Alexa, seront traités sur du silicium spécialisé plus rapide au lieu de GPU quelque peu polyvalents.

Amazone a déjà a transféré environ 80% du traitement Alexa sur des instances Elastic Compute Cloud (EC2) Inf1, qui utilisent les nouvelles puces AWS Inferentia. Par rapport aux instances G4, qui utilisaient des GPU traditionnels, les instances Inf1 augmentent le débit de 30% et les coûts de 45%. Amazon estime qu’il s’agit des meilleures instances sur le marché pour déduire les charges de travail de traitement du langage naturel et de la voix.

Alexa fonctionne comme ceci: le boîtier du haut-parleur (ou le cylindre, comme il se peut) ne fait pratiquement rien, tandis que les processeurs AWS dans le cloud font tout. Ou pour le dire plus techniquement … le système démarre une fois que le mot de réveil a été détecté par la puce intégrée de l’Echo. Il commence à diffuser l’audio vers le cloud en temps réel. Off dans un centre de données quelque part, l’audio est transformé en texte (ceci est un exemple d’inférence). Ensuite, le sens est retiré du texte (un autre exemple d’inférence). Toutes les actions requises sont terminées, comme l’extraction des informations météorologiques du jour.

YouTube video

Une fois qu’Alexa a terminé votre demande, elle doit vous communiquer la réponse. Ce qu’elle est censée dire est choisi dans un script modulaire. Ensuite, le script est transformé en fichier audio (un autre exemple d’inférence) et envoyé à votre appareil Echo. L’Echo lit le fichier et vous décidez d’apporter un parapluie pour travailler avec vous.

De toute évidence, l’inférence est une grande partie du travail. Il n’est pas surprenant qu’Amazon ait investi des millions de dollars dans la fabrication des puces d’inférence parfaites.

Publicité

En parlant de cela, les puces Inferentia sont composées de quatre NeuronCores. Chacun implémente un «moteur de multiplication matricielle systolique haute performance». Plus ou moins, chaque NeuronCore est composé d’un très grand nombre de petites unités de traitement de données (DPU) qui traitent les données de manière linéaire et indépendante. Chaque puce Inferentia dispose également d’un énorme cache, ce qui améliore les latences.

Rate this post
Publicité
Article précédentMicrosoft met fin à la prise en charge d’Office 2010: ce que vous pouvez faire
Article suivantMoniteur de système plasma est une application de statistiques système moderne pour KDE
Avatar De Violette Laurent
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici