L'architecture Transformer est devenue un outil essentiel dans de nombreux domaines, excellant particulièrement dans des tâches telles que la reconnaissance vocale, la traduction automatique et la synthèse de documents. Pourtant, son efficacité dépend souvent de l’augmentation de la taille du modèle pour relever des défis de plus en plus complexes, imposant ainsi des charges de calcul considérables.

Dans le but d’alléger la charge informatique associée aux Transformers, l’exploration des mécanismes d’attention linéaire a suscité un intérêt notable. Néanmoins, l’amélioration de ces mécanismes implique généralement un recyclage approfondi, un effort prohibitif pour les grands modèles de langage regorgeant de paramètres.

Dans un nouveau journal DiJiang : grands modèles de langage efficaces grâce à une kernelisation compacte, une équipe de recherche de l'Ark Lab de Huawei Noah et de l'Université de Pékin présente DiJiang, une approche révolutionnaire de Kernelisation du domaine fréquentiel. Cette innovation facilite la transition vers un modèle de complexité linéaire avec une surcharge de formation minimale, atteignant des performances similaires à celles de LLaMA2-7B sur divers benchmarks, mais à seulement 1/50ème du coût de formation.

image
image 1

Les chercheurs ont initialement reconnu le potentiel des techniques d’approximation rapide de l’attention pour atténuer la surcharge de calcul des modèles à grande échelle. Cependant, ces méthodes manquaient de validation approfondie dans le contexte de modèles de langage expansifs. Grâce à un examen complet des schémas d'attention linéaire existants, l'équipe a identifié l'échantillonnage basé sur la méthode de Monte Carlo comme la principale source d'erreur d'approximation.

image 2

Pour résoudre ce problème, ils préconisent un échantillonnage quasi-Monte Carlo pondéré, en introduisant spécifiquement la Kernelisation du domaine fréquentiel. Cette approche innovante mappe efficacement les requêtes et les clés d'un transformateur au domaine fréquentiel à l'aide de la transformation cosinus discrète (DCT). Par conséquent, cela permet d’éliminer l’opération softmax dans le mécanisme d’attention, ce qui entraîne un calcul de complexité linéaire.

Publicité
image 3

L’équipe justifie sa proposition à la fois théoriquement et empiriquement. Théoriquement, ils démontrent que la cartographie du domaine fréquentiel sert d’équivalent approximatif au mécanisme d’attention original. Empiriquement, DiJiang atteint des performances comparables à celles du Transformer d'origine, mais à un coût de formation considérablement réduit (moins de 1/10ème) et à des vitesses d'inférence plus rapides (jusqu'à environ 10x).

En résumé, DiJiang annonce un progrès notable dans la création de modèles de Transformer efficaces et évolutifs. Son potentiel d’application plus large est prometteur pour faire progresser diverses tâches de traitement du langage naturel et au-delà.

Le code est disponible sur le projet GitHub. Le papier DiJiang : grands modèles de langage efficaces grâce à une kernelisation compacte est sur arXiv.


Auteur: Hécate Il | Éditeur: Chaîne Zhang


image 122

Nous savons que vous ne voulez manquer aucune actualité ou avancée en matière de recherche. Abonnez-vous à notre newsletter populaire IA mondiale synchronisée chaque semaine pour obtenir des mises à jour hebdomadaires de l'IA.

->Google Actualités

4.9/5 - (27 votes)
Publicité
Article précédentLa science révèle que certaines personnes pourraient simplement être meilleures sur Fortnite parce qu'elles voient un FPS plus élevé
Article suivantLe dernier coup final de Call Of Duty permet aux joueurs de souffler de la fumée d'herbe à travers un pistolet

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici