Accueil Tech today Tesla Dojo : le grand projet d’Elon Musk de construire un supercalculateur...

Tesla Dojo : le grand projet d’Elon Musk de construire un supercalculateur d’IA expliqué

Par

août 3, 2024

Pendant des années, Elon Musk a parlé de Dojo – le supercalculateur d’IA qui sera la pierre angulaire des ambitions de Tesla en matière d’IA. C’est suffisamment important pour Musk qu’il a récemment déclaré que l’équipe d’IA de l’entreprise allait « doubler la mise » sur Dojo alors que Tesla se prépare à révéler son robotaxi en octobre.

Mais qu’est-ce que le Dojo exactement ? Et pourquoi est-ce si essentiel à la stratégie à long terme de Tesla ?

En bref : Dojo est le supercalculateur personnalisé de Tesla conçu pour entraîner ses réseaux neuronaux « Full Self-Driving ». Le renforcement du Dojo va de pair avec l’objectif de Tesla d’atteindre la conduite entièrement autonome et de commercialiser un robotaxi. La FSD, qui équipe environ 2 millions de véhicules Tesla aujourd’hui, peut effectuer certaines tâches de conduite automatisée, mais nécessite toujours qu’un humain soit attentif au volant.

Tesla a retardé la révélation de son robotaxi, qui était prévue pour août, à octobre, mais la rhétorique publique de Musk et les informations provenant de sources internes à Tesla nous disent que l’objectif d’autonomie ne disparaît pas.

Et Tesla semble prêt à dépenser beaucoup d’argent dans l’IA et le Dojo pour atteindre cet exploit.

Table des matières hide

1 L’histoire du Dojo de Tesla

2 Qu’est-ce qu’un supercalculateur ?

3 Pourquoi Tesla a-t-il besoin d’un supercalculateur ?

4 Dites-m’en plus sur ces puces

5 Que signifie Dojo pour Tesla ?

6 Où en est le Dojo ?

L’histoire du Dojo de Tesla

GettyImages 1239825394 — Elon Musk prend la parole lors de la grande soirée d’ouverture de la fabrication de Tesla Giga Texas « Cyber Rodeo » le 7 avril 2022 à Austin, au Texas. **Crédits image**: Suzanne Cordeiro/AFP via Getty images

Musk ne veut pas que Tesla soit seulement un constructeur automobile, ni même un fournisseur de panneaux solaires et de systèmes de stockage d’énergie. Au lieu de cela, il veut que Tesla soit une entreprise d’IA, qui a déchiffré le code des voitures autonomes en imitant la perception humaine.

La plupart des autres entreprises qui développent des technologies de véhicules autonomes s’appuient sur une combinaison de capteurs pour percevoir le monde – comme le lidar, le radar et les caméras – ainsi que sur des cartes haute définition pour localiser le véhicule. Tesla pense qu’elle peut atteindre une conduite entièrement autonome en s’appuyant uniquement sur des caméras pour capturer des données visuelles, puis en utilisant des réseaux neuronaux avancés pour traiter ces données et prendre des décisions rapides sur la façon dont la voiture devrait se comporter.

Comme l’a déclaré l’ancien responsable de l’IA de Tesla, Andrej Karpathy, lors de la première Journée de l’IA du constructeur automobile en 2021, l’entreprise essaie essentiellement de construire « un animal synthétique à partir de zéro ». (Musk taquine Dojo depuis 2019, mais Tesla l’a officiellement annoncé lors de l’AI Day.)

Des entreprises comme Waymo d’Alphabet ont commercialisé des véhicules autonomes de niveau 4 – que la SAE définit comme un système capable de se conduire lui-même sans avoir besoin d’intervention humaine dans certaines conditions – grâce à une approche plus traditionnelle de capteurs et d’apprentissage automatique. Tesla n’a pas encore produit de système autonome qui ne nécessite pas d’humain au volant.

Environ 1,8 million de personnes ont payé le prix élevé de l’abonnement au FSD de Tesla, qui coûte actuellement 8 000 $ et a été vendu jusqu’à 15 000 $. L’argument est que les logiciels d’IA formés par Dojo seront éventuellement mis à la disposition des clients de Tesla via des mises à jour en direct. L’ampleur de la FSD signifie également que Tesla a été en mesure d’engranger des millions de kilomètres de séquences vidéo qu’elle utilise pour s’entraîner à la FSD. L’idée est que plus Tesla peut collecter de données, plus le constructeur automobile peut se rapprocher de la conduite entièrement autonome.

Cependant, certains experts du secteur affirment qu’il pourrait y avoir une limite à l’approche de la force brute consistant à jeter plus de données sur un modèle et à s’attendre à ce qu’il devienne plus intelligent.

« Tout d’abord, il y a une contrainte économique, et bientôt cela deviendra trop cher pour le faire », a déclaré Anand Raghunathan, professeur de génie électrique et informatique à l’Université Purdue dans la Silicon Valley, à TechCrunch. « Certaines personnes prétendent que nous pourrions en fait manquer de données significatives sur lesquelles entraîner les modèles. Plus de données ne signifie pas nécessairement plus d’informations, donc cela dépend si ces données contiennent des informations utiles pour créer un meilleur modèle, et si le processus d’entraînement est capable de distiller ces informations dans un meilleur modèle.

Selon M. Raghunathan, malgré ces doutes, la tendance à l’augmentation des données semble être là pour le moins à court terme. Et plus de données signifie plus de puissance de calcul nécessaire pour stocker et traiter tout cela afin d’entraîner les modèles d’IA de Tesla. C’est là qu’intervient Dojo, le supercalculateur.

Qu’est-ce qu’un supercalculateur ?

Dojo est le système de supercalculateur de Tesla conçu pour fonctionner comme un terrain d’entraînement pour l’IA, en particulier la FSD. Le nom est un clin d’œil à l’espace où l’on pratique les arts martiaux.

Un supercalculateur est composé de milliers d’ordinateurs plus petits appelés nœuds. Chacun de ces nœuds possède son propre processeur (unité centrale de traitement) et son propre GPU (unité de traitement graphique). Le premier s’occupe de la gestion globale du nœud, et le second s’occupe des choses complexes, comme le fractionnementDiviser les tâches en plusieurs parties et y travailler simultanément. Les GPU sont essentiels pour les opérations d’apprentissage automatique comme celles qui alimentent l’entraînement FSD dans la simulation. Ils alimentent également de grands modèles de langage, c’est pourquoi l’essor de l’IA générative a fait de Nvidia l’entreprise la plus précieuse de la planète.

Même Tesla achète des GPU Nvidia pour entraîner son IA (nous y reviendrons plus tard).

Pourquoi Tesla a-t-il besoin d’un supercalculateur ?

L’approche de Tesla, axée uniquement sur la vision, en est la principale raison. Les réseaux neuronaux derrière FSD sont entraînés sur de grandes quantités de données de conduite pour reconnaître et classer les objets autour du véhicule, puis prendre des décisions de conduite. Cela signifie que lorsque la FSD est engagée, les réseaux neuronaux doivent collecter et traiter des données visuelles en continu à des vitesses qui correspondent aux capacités de reconnaissance de la profondeur et de la vitesse d’un humain.

En d’autres termes, Tesla signifie créer une copie numérique du cortex visuel humain et de la fonction cérébrale.

Pour y parvenir, Tesla doit stocker et traiter toutes les données vidéo collectées de ses voitures dans le monde entier et exécuter des millions de simulations pour entraîner son modèle sur les données.

Pour vous donner une idée de l’échelle, Tesla a déclaré qu’en mai 2024, les véhicules Tesla équipés de la version 12 de la FSD avaient déjà parcouru 300 milliards de miles.

Tesla semble compter sur Nvidia pour alimenter son ordinateur d’entraînement Dojo actuel, mais il ne veut pas avoir tous ses œufs dans le même panier, notamment parce que les puces Nvidia sont chères. Tesla espère également faire quelque chose de mieux qui augmente la bande passante et diminue les latences. C’est pourquoi la division IA du constructeur automobile a décidé de proposer son propre programme de matériel personnalisé qui vise à entraîner les modèles d’IA plus efficacement que les systèmes traditionnels.

Au cœur de ce programme se trouvent les puces D1 exclusives de Tesla, qui, selon la société, sont optimisées pour les charges de travail de l’IA.

Dites-m’en plus sur ces puces

Ganesh Venkataramanan, ancien directeur principal du matériel Autopilot, présente la tuile d’entraînement D1 lors de la Journée de l’IA 2021 de Tesla. **Crédits image**: Tesla/capture d’écran de l’événement diffusé

Tesla est d’un avis similaire à celui d’apple, en ce sens qu’il pense que le matériel et les logiciels doivent être conçus pour fonctionner ensemble. C’est pourquoi Tesla s’efforce de s’éloigner du matériel GPU standard et de concevoir ses propres puces pour alimenter Dojo.

Tesla a dévoilé sa puce D1, un carré de silicium de la taille d’une paume, lors de la Journée de l’IA en 2021. La puce D1 est entrée en production au moins en mai de cette année. La Taiwan Semiconductor Manufacturing Company (TSMC) fabrique les puces à l’aide de nœuds semi-conducteurs de 7 nanomètres. Le D1 dispose de 50 milliards de transistors et d’une grande taille de puce de 645 millimètres carrés, selon Tesla. Tout cela pour dire que le D1 promet d’être extrêmement puissant et efficace, et de gérer rapidement des tâches complexes.

« Nous pouvons effectuer des calculs et des transferts de données simultanément, et notre ISA personnalisé, qui est l’architecture du jeu d’instructions, est entièrement optimisé pour les charges de travail d’apprentissage automatique », a déclaré Ganesh Venkataramanan, ancien directeur principal du matériel Autopilot, lors de la Journée de l’IA 2021 de Tesla. « Il s’agit d’une pure machine d’apprentissage automatique. »

Cependant, le D1 n’est toujours pas aussi puissant que la puce A100 de Nvidia, qui est également fabriquée par TSMC à l’aide d’un processus de 7 nanomètres. L’A100 contient 54 milliards de transistors et a une taille de puce de 826 millimètres carrés, ce qui lui confère des performances légèrement supérieures à celles du D1 de Tesla.

Pour obtenir une bande passante plus élevée et une puissance de calcul plus élevée, l’équipe d’IA de Tesla a fusionné 25 puces D1 en une seule tuile pour fonctionner comme un système informatique unifié. Chaque tuile dispose d’une puissance de calcul de 9 pétaflops et de 36 téraoctets par seconde de bande passante, et contient tout le matériel nécessaire à l’alimentation, au refroidissement et au transfert de données. Vous pouvez considérer la tuile comme un ordinateur autonome composé de 25 ordinateurs plus petits. Six de ces tuiles constituent un rack, et deux racks constituent une armoire. Dix armoires composent un ExaPOD. Lors de l’AI Day 2022, Tesla a déclaré que Dojo évoluerait en déployant plusieurs ExaPOD. Tout cela constitue le supercalculateur.

Tesla travaille également sur une puce D2 de nouvelle génération qui vise à résoudre les goulets d’étranglement des flux d’informations. Au lieu de connecter les puces individuelles, le D2 mettrait toute la tuile du Dojo sur une seule plaquette de silicium.

Tesla n’a pas confirmé le nombre de puces D1 qu’elle a commandées ou qu’elle s’attend à recevoir. La société n’a pas non plus fourni de calendrier sur le temps qu’il faudra pour que les supercalculateurs Dojo fonctionnent sur des puces D1.

En réponse à un billet de juin sur X cela dit : « Elon construit un refroidisseur GPU géant au Texas », Musk a réponduchez Tesla visait « la moitié du matériel d’IA Tesla, l’autre moitié Nvidia/autre » au cours des 18 prochains mois environ. L' »autre » pourrait être des puces AMD, par Commentaire de Musk en janvier.

Que signifie Dojo pour Tesla ?

GettyImages 2162480419 — Le robot humanoïde Optimus Prime II de Tesla au WAIC à Shanghai, en Chine, le 7 juillet 2024. **Crédits image**: Costfoto/NurPhoto via Getty Images)

Prendre le contrôle de sa propre production de puces signifie que Tesla pourrait un jour être en mesure d’ajouter rapidement de grandes quantités de puissance de calcul aux programmes d’entraînement de l’IA à faible coût. D’autant plus que Tesla et TSMC augmentent la production de puces, ce qui rend les puces plus abordables.

Cela signifie également que Tesla n’aura peut-être plus à compter sur les puces de Nvidia à l’avenir, qui sont de plus en plus chères et difficiles à sécuriser.

Lors de la conférence téléphonique sur les résultats du deuxième trimestre de Tesla, Musk a déclaré que la demande de matériel Nvidia est « si élevée qu’il est souvent difficile d’obtenir les GPU ». Il a déclaré qu’il était « assez préoccupé par le fait de pouvoir obtenir des GPU stables quand nous le voulons, et je pense que cela nécessite donc que nous mettions beaucoup plus d’efforts sur Dojo afin de nous assurer que nous avons la capacité de formation dont nous avons besoin. »

Cela dit, Tesla achète encore aujourd’hui des puces Nvidia pour entraîner son IA. En juin, Musk a posté sur X:

« Sur les quelque 10 milliards de dollars de dépenses liées à l’IA que j’ai dit que Tesla ferait cette année, environ la moitié est interne, principalement l’ordinateur d’inférence d’IA conçu par Tesla et les capteurs présents dans toutes nos voitures, ainsi que Dojo. Pour la construction des supergrappes d’entraînement de l’IA, le matériel Nvidia coûte environ 2/3 du coût. Ma meilleure estimation actuelle pour les achats de Nvidia par Tesla est de 3 à 4 milliards de dollars cette année.

Le calcul d’inférence fait référence aux calculs d’IA effectués par les voitures Tesla en temps réel et est distinct du calcul d’entraînement dont Dojo est responsable.

Dojo est un pari risqué, que Musk a couvert à plusieurs reprises en disant que Tesla pourrait ne pas réussir.

À long terme, Tesla pourrait théoriquement créer un nouveau modèle d’affaires basé sur sa division IA. Musk a déclaré que la première version de Dojo sera adaptée à l’étiquetage et à la formation de la vision par ordinateur de Tesla, ce qui est idéal pour la FSD et la formation d’Optimus, le robot humanoïde de Tesla. Mais cela ne servirait à rien d’autre.

Musk a dit que les futures versions de Dojo seront plus adaptées à la formation générale de l’IA. Un problème potentiel avec cela est que presque tous les logiciels d’IA ont été écrits pour fonctionner avec les GPU. L’utilisation de Dojo pour entraîner des modèles d’IA à usage général nécessiterait de réécrire le logiciel.

C’est-à-dire, à moins que Tesla ne loue ses calculs, de la même manière qu’AWS et Azure louent des capacités de cloud computing. Musk a également noté lors des résultats du deuxième trimestre qu’il voyait « un chemin pour être compétitif avec Nvidia avec Dojo ».

Un rapport de septembre 2023 de Morgan Stanley a prédit que Dojo pourrait Ajouter 500 milliards de dollars à la valeur marchande de Tesla en débloquant de nouvelles sources de revenus sous la forme de robotaxis et de services logiciels.

En bref, les puces de Dojo sont une police d’assurance pour le constructeur automobile, mais qui pourrait rapporter des dividendes.

Où en est le Dojo ?

GettyImages 524212924 — Jen-Hsun Huang, PDG de Nvidia, et Elon Musk, PDG de Tesla, lors de la conférence sur la technologie GPU à San Jose, en Californie. **Crédits image**: Kim Kulish/Corbis via Getty Images

Reuters a rapporté l’année dernière que Tesla a commencé la production sur Dojo en juillet 2023, mais un Article de juin 2023 de Musk a suggéré que Dojo était « en ligne et exécutait des tâches utiles depuis quelques mois ».

À peu près au même moment, Tesla a déclaré qu’elle s’attendait à ce que Dojo soit l’un des cinq supercalculateurs les plus puissants d’ici février 2024 – un exploit qui n’a pas encore été divulgué publiquement, nous laissant douter qu’il se soit produit. La société a également déclaré qu’elle s’attendait à ce que le calcul total de Dojo atteigne 100 exaflops en octobre 2024.

(1 exaflop est égal à 1 quintillion d’opérations informatiques par seconde. Pour atteindre 100 exaflops et en supposant qu’un D1 puisse atteindre 362 téraflops, Tesla aurait besoin de plus de 276 000 D1, soit environ 320 500 GPU Nvidia A100.)

Tesla s’est également engagé en janvier 2024 à dépenser 500 millions de dollars pour construire un supercalculateur Dojo dans sa gigafactory de Buffalo, dans l’État de New York.

En mai 2024, Musk a noté que la partie arrière de la gigafactory de Tesla à Austin sera réservée à un « cluster de supercalculateurs super dense et refroidi à l’eau ».

Juste après la conférence téléphonique sur les résultats du deuxième trimestre de Tesla, Musk posté le X que l’équipe d’IA du constructeur utilise le processeur d’IA Tesla HW4ter (renommé AI4), qui est le matériel qui vit sur les véhicules Tesla, dans la boucle d’entraînement avec les GPU Nvidia. Il a noté que la répartition est d’environ 90 000 Nvidia H100 et 40 000 ordinateurs AI4.

« Et Dojo 1 aura environ 8 000 équivalents H100 de formation en ligne d’ici la fin de l’année », a-t-il poursuivi. « Pas énorme, mais pas anodin non plus. »