La transformation numérique est responsable de la création de charges de travail d’intelligence artificielle à une échelle sans précédent. Ces charges de travail obligent les entreprises à collecter et à stocker des montagnes de données. Même si l’intelligence d’affaires est extraite des modèles d’apprentissage automatique actuels, de nouveaux flux de données sont utilisés pour créer de nouveaux modèles et mettre à jour les modèles existants.
La construction de modèles d’IA est complexe et coûteuse. Il est également très différent du développement logiciel traditionnel. Les modèles d’intelligence artificielle ont besoin de matériel spécialisé pour un calcul accéléré et un stockage haute performance, ainsi que d’une infrastructure spécialement conçue pour gérer les nuances techniques de l’IA.
Dans le monde d’aujourd’hui, de nombreuses décisions commerciales critiques et services destinés aux clients reposent sur des informations précises sur l’apprentissage automatique. Pour former, exécuter et mettre à l’échelle des modèles aussi rapidement et précisément que possible, une entreprise a les connaissances nécessaires pour choisir le meilleur matériel et logiciel pour ses applications d’apprentissage automatique.
Étalonnage des performances
MLCommons est un consortium d’ingénierie ouvert qui a permis aux entreprises de prendre plus facilement des décisions en matière d’apprentissage automatique grâce à son analyse comparative standardisée. Sa mission est de rendre l’apprentissage automatique meilleur pour tout le monde. Des tests sont effectués et des comparaisons impartiales aident les entreprises à déterminer quel fournisseur répond le mieux à ses exigences en matière d’applications d’intelligence artificielle. La fondation de MLCommons a commencé son premier benchmarking MLPerf en 2018.
MLcommons a récemment mené un programme d’analyse comparative appelé Formation MLPerf v2.0 mesurer les performances du matériel et des logiciels utilisés pour former des modèles d’apprentissage automatique. 250 résultats de performances ont été rapportés par 21 soumissionnaires différents, dont Azure, Baidu
BIDU
BIDU
GOOG
GOOG
Le
Le
VIDI
La
DIA
VIDI
La
DIA
Cette série de tests s’est concentrée sur la détermination du temps qu’il faut pour entraîner divers réseaux de neurones. Une formation plus rapide des modèles permet un déploiement plus rapide des modèles, ce qui a un impact sur le coût total de possession et le retour sur investissement du modèle.
Un nouveau benchmark de détection d’objets a été ajouté à MLPerf Training 2.0, qui entraîne le nouveau modèle de référence RetinaNet sur un ensemble de données plus grand et plus diversifié appelé Open Images. Ce nouveau test reflète une formation ml de pointe pour des applications telles que l’évitement de collision pour les véhicules et la robotique, l’analyse de la vente au détail et bien d’autres.
Résultats
L’apprentissage automatique a connu beaucoup d’innovation depuis 2021, à la fois dans le matériel et les logiciels. Pour la première fois depuis le début de MLPerf, le supercalculateur TPU v4 ML basé sur le cloud de Google a surpassé NVIDIA A100 dans quatre des huit tests de formation couvrant la langue (2), la vision par ordinateur (4), l’apprentissage par renforcement (1) et les systèmes de recommandation (1).
Selon le graphique comparant les performances de Google et nvidia, Google avait les temps de formation les plus rapides pour BERT (langage), ResNet (reconnaissance d’image), RetinaNet (détection d’objets) et MaskRCNN (reconnaissance d’images). En ce qui concerne DLRM (recommandation), Google a devancé de peu NVIDIA, mais il s’agissait d’un projet de recherche et indisponible pour un usage public.
Dans l’ensemble, Google a soumis des scores pour cinq des huit benchmarks, les meilleurs temps de formation sont indiqués ci-dessous:
Lors d’une discussion avec Vikram Kasivajhula, directeur de la gestion des produits de Google pour l’infrastructure ML, j’ai demandé quelle approche Google utilisait pour apporter des améliorations aussi spectaculaires au TPU v4.
« Nous nous sommes concentrés sur les problèmes des grands utilisateurs de modèles qui innovent aux frontières de l’apprentissage automatique », a-t-il déclaré. « Notre produit cloud est en fait une instanciation de cet objectif. Nous nous sommes également concentrés sur la performance par dollar. Comme vous pouvez l’imaginer, ces modèles deviennent incroyablement grands et coûteux à former. L’une de nos priorités est de nous assurer qu’il est abordable. »
Une soumission unique en son genre
Une soumission unique a été faite à MLPerf Training 2.0 par un étudiant diplômé de Stanford, Tri Dao. Dao a soumis un système 8-A100 pour la formation BERT.
NVIDIA avait également une soumission utilisant la même configuration que Dao. Je soupçonne que c’était une soumission de courtoisie de NVIDIA pour fournir à Dao un point de comparaison documenté.
NVIDIA a terminé l’entraînement du modèle BERT avec son 8-A100 en 18,442 minutes alors que la soumission de Dao n’a pris que 17,402 minutes. Il a obtenu un temps d’entraînement plus rapide en utilisant une méthode appelée FlashAttention. L’attention est une technique qui imite l’attention cognitive. L’effet améliore certaines parties des données d’entrée tout en diminuant d’autres parties – la motivation est que le réseau devrait se concentrer davantage sur les parties petites mais importantes des données.
Envelopper
Au cours des trois dernières années, Google a fait beaucoup de progrès avec son TPU. De même, NVIDIA utilise son A100 avec succès depuis quatre ans. Une grande partie de l’amélioration logicielle a été apportée à l’A100, comme en témoigne sa longue histoire de réalisations.
Nous sommes susceptibles de voir des soumissions NVIDIA en 2023 en utilisant à la fois son A100 et le nouveau H100, une bête selon n’importe quelle norme actuelle. Tout le monde espérait voir les performances du H100 cette année, mais NVIDIA ne l’a pas soumis car il n’était pas accessible au public.
Les améliorations logicielles en général étaient évidentes dans les derniers résultats. Kasivajhula a déclaré que le matériel n’était que la moitié de l’histoire des benchmarks améliorés de Google. L’autre moitié était des optimisations logicielles.
« De nombreuses optimisations ont été apprises à partir de nos propres cas d’utilisation de référence de pointe sur YouTube et la recherche », a-t-il déclaré. « Nous les mettons maintenant à la disposition des utilisateurs. »
Google a également apporté plusieurs améliorations de performances à la pile de virtualisation pour utiliser pleinement la puissance de calcul des hôtes CPU et des puces TPU. Les résultats des améliorations logicielles de Google ont été démontrés par ses performances maximales sur les modèles d’image et de recommandation.
Dans l’ensemble, les TPU Cloud de Google offrent des performances significatives et des économies de coûts à grande échelle. Il faudra du temps pour savoir si les avantages sont suffisants pour inciter davantage de clients à passer aux TPU Google Cloud.
À plus long terme, les meilleurs résultats de Google dans les principales catégories pourraient présager que NVIDIA atteindra moins de résultats MLPerf à l’avenir. Il est dans l’intérêt de l’écosystème de voir de fortes controverses entre plusieurs fournisseurs pour les meilleurs résultats de performance MLPerf.
Une chose est sûre, MLPerf Training 2.0 était beaucoup plus intéressant que lors des tours précédents où NVIDIA a remporté des victoires de performance dans presque toutes les catégories.
Les résultats complets de MLPerf Training 2.0 sont disponibles ici.
Paul Smith-Goodson est vice-président et analyste principal pour l’informatique quantique, l’intelligence artificielle et l’espace chez Moor Insights and Strategy. Vous pouvez le suivre sur Gazouiller pour obtenir des informations actuelles sur le quantique, l’IA et l’espace.
Remarque: Les rédacteurs et les rédacteurs de Moor Insights & Strategy peuvent avoir contribué à cet article.
Moor Insights & Strategy, comme tous les cabinets d’analystes de l’industrie de la recherche et de la technologie, fournit ou a fourni des services payants aux entreprises technologiques. Ces services comprennent la recherche, l’analyse, le conseil, le conseil, l’analyse comparative, le jumelage d’acquisitions et les commandites orales. La société a eu ou a actuellement des relations d’affaires rémunérées avec 8×8, Accenture
ACN
ACN
ATEN
ATEN
AMD
AMD
AMZN
AMZN
T
T
AVGO
AVGO
CALX
CALX
CSCO
CSCO
ClDR
ClDR
VALLON
VALLON
EXTR
EXTR
VMW
VMW
IBM
IBM
JBL
JBL
Le
Le
MRVL
MRVL
MU
MU
MSFT (en anglais seulement)
MSFT (en anglais seulement)
L’ITENA
L’ITENA
Le
Le
QCOM (en anglais seulement)
QCOM (en anglais seulement)
NU
NU
ORCL
ORCL
PANW (en anglais seulement)
PANW (en anglais seulement)
PXLW
PXLW
PLT
PLT
Le
Le
Le RMBS
Le RMBS
RHT
RHT
S
S
NLOK
NLOK
SYNA
SYNA
Le
Le
TDC
TDC
VZ
VZ
XLNX
XLNX
ZEN
ZEN
ZS
ZS