Accueil Smartphones DiJiang de Huawei et de l'Université de Pékin : un transformateur atteignant les...

DiJiang de Huawei et de l'Université de Pékin : un transformateur atteignant les performances du LLaMA2-7B à 1/50ème du coût de formation

Par

avril 4, 2024

L'architecture Transformer est devenue un outil essentiel dans de nombreux domaines, excellant particulièrement dans des tâches telles que la reconnaissance vocale, la traduction automatique et la synthèse de documents. Pourtant, son efficacité dépend souvent de l’augmentation de la taille du modèle pour relever des défis de plus en plus complexes, imposant ainsi des charges de calcul considérables.

Dans le but d’alléger la charge informatique associée aux Transformers, l’exploration des mécanismes d’attention linéaire a suscité un intérêt notable. Néanmoins, l’amélioration de ces mécanismes implique généralement un recyclage approfondi, un effort prohibitif pour les grands modèles de langage regorgeant de paramètres.

Dans un nouveau journal DiJiang : grands modèles de langage efficaces grâce à une kernelisation compacte, une équipe de recherche de l'Ark Lab de Huawei Noah et de l'Université de Pékin présente DiJiang, une approche révolutionnaire de Kernelisation du domaine fréquentiel. Cette innovation facilite la transition vers un modèle de complexité linéaire avec une surcharge de formation minimale, atteignant des performances similaires à celles de LLaMA2-7B sur divers benchmarks, mais à seulement 1/50ème du coût de formation.

DiJiang de Huawei et de l'Université de Pékin : un transformateur atteignant les performances du LLaMA2-7B à 1/50ème du coût de formation 1

DiJiang de Huawei et de l'Université de Pékin : un transformateur atteignant les performances du LLaMA2-7B à 1/50ème du coût de formation 3

Les chercheurs ont initialement reconnu le potentiel des techniques d’approximation rapide de l’attention pour atténuer la surcharge de calcul des modèles à grande échelle. Cependant, ces méthodes manquaient de validation approfondie dans le contexte de modèles de langage expansifs. Grâce à un examen complet des schémas d'attention linéaire existants, l'équipe a identifié l'échantillonnage basé sur la méthode de Monte Carlo comme la principale source d'erreur d'approximation.

DiJiang de Huawei et de l'Université de Pékin : un transformateur atteignant les performances du LLaMA2-7B à 1/50ème du coût de formation 5

Pour résoudre ce problème, ils préconisent un échantillonnage quasi-Monte Carlo pondéré, en introduisant spécifiquement la Kernelisation du domaine fréquentiel. Cette approche innovante mappe efficacement les requêtes et les clés d'un transformateur au domaine fréquentiel à l'aide de la transformation cosinus discrète (DCT). Par conséquent, cela permet d’éliminer l’opération softmax dans le mécanisme d’attention, ce qui entraîne un calcul de complexité linéaire.

DiJiang de Huawei et de l'Université de Pékin : un transformateur atteignant les performances du LLaMA2-7B à 1/50ème du coût de formation 7

L’équipe justifie sa proposition à la fois théoriquement et empiriquement. Théoriquement, ils démontrent que la cartographie du domaine fréquentiel sert d’équivalent approximatif au mécanisme d’attention original. Empiriquement, DiJiang atteint des performances comparables à celles du Transformer d'origine, mais à un coût de formation considérablement réduit (moins de 1/10ème) et à des vitesses d'inférence plus rapides (jusqu'à environ 10x).

En résumé, DiJiang annonce un progrès notable dans la création de modèles de Transformer efficaces et évolutifs. Son potentiel d’application plus large est prometteur pour faire progresser diverses tâches de traitement du langage naturel et au-delà.

Le code est disponible sur le projet GitHub. Le papier DiJiang : grands modèles de langage efficaces grâce à une kernelisation compacte est sur arXiv.

Auteur: Hécate Il | Éditeur: Chaîne Zhang

DiJiang de Huawei et de l'Université de Pékin : un transformateur atteignant les performances du LLaMA2-7B à 1/50ème du coût de formation 9

Nous savons que vous ne voulez manquer aucune actualité ou avancée en matière de recherche. Abonnez-vous à notre newsletter populaire IA mondiale synchronisée chaque semaine pour obtenir des mises à jour hebdomadaires de l'IA.

->Google Actualités

4.9/5 - (27 votes)

DiJiang de Huawei et de l'Université de Pékin : un transformateur atteignant les performances du LLaMA2-7B à 1/50ème du coût de formation

LAISSER UN COMMENTAIRE Annuler la réponse

Les coffrets cadeaux Wicked en édition limitée sont en précommande

Armored Core 6 et le guide officiel à couverture rigide sont bon marché pour...