Google a récemment conclu le Formation MLPerf v1.1 round, où il a soumis deux grands benchmarks de modèles de langage dans la division Open, un avec 480 milliards de paramètres et un second avec 200 milliards de paramètres. Ces soumissions utilisent une infrastructure accessible au public, y compris des tranches de pod Cloud TPU v4 et le Lingvo cadre de modélisation open source.
Les modèles de formation traditionnellement à ces échelles nécessiteraient la construction d’un superordinateur au coût de dizaines, voire de centaines de millions de dollars, ce que seules quelques entreprises peuvent se permettre. Les clients peuvent obtenir les mêmes résultats en utilisant exaflop-scale Pods Cloud TPU v4 sans encourir les coûts d’installation et de maintenance d’un système sur site.
Apply>>
GoogleLes soumissions de la division Open consistent en un benchmark de 480 milliards de paramètres denses basé sur un encodeur basé sur un transformateur utilisant TensorFlow et un paramètre de 200 milliards JAX référence. Ces modèles sont architecturalement similaires à ceux de MLPerf BERT modèle mais avec des dimensions et un nombre de couches plus importants.
Ces soumissions démontrent une évolutivité à grande échelle et des performances élevées sur les TPU dans deux cadres distincts. Notamment, avec leur architecture de transformateurs empilés, ces benchmarks sont assez comparables en termes de caractéristiques de calcul avec d’autres grands modèles de langage.
Les deux soumissions ont été étalonné sur des tranches de pod TPU v4 à 2 048 puces et 1 024 puces, respectivement. Google a pu atteindre un temps de formation de bout en bout d’environ 55 heures pour le modèle de paramètre 480B et d’environ 40 heures pour le modèle de paramètre 200B. Chacune de ces exécutions a atteint une efficacité de calcul de 63% – calculée comme une fraction des opérations à virgule flottante du modèle avec la rematérialisation du compilateur sur les pics FLOP du système utilisé.
L’obtention de ces résultats impressionnants a nécessité une combinaison de plusieurs technologies de pointe. Premièrement, chaque puce TPU v4 fournit plus de 2 fois la puissance de calcul d’une puce TPU v3 – jusqu’à 275 TFLOPS de pointe. Deuxièmement, 4 096 puces TPU v4 sont mises en réseau dans un pod Cloud TPU v4 par une interconnexion ultra-rapide qui fournit 10 fois la bande passante par puce à grande échelle par rapport à la norme Basé sur GPU systèmes de formation à grande échelle.
Les grands modèles sont très gourmands en communication : le calcul local dépend souvent des résultats du calcul distant qui sont communiqués sur le réseau. L’interconnexion ultra-rapide de TPU v4 a un impact démesuré sur l’efficacité de calcul des grands modèles en éliminant la latence et la congestion du réseau. Les soumissions de Google représentent une classe importante de modèles qui sont devenus de plus en plus importants dans la recherche et la production de ML, mais ne sont actuellement pas représentés dans la suite de référence à division fermée de MLPerf.
Recevez les dernières mises à jour et offres pertinentes en partageant votre e-mail.
Join our Telegram Group. Be part of an engaging community