Les réseaux de neurones basés sur des transformateurs ont montré une grande capacité à gérer plusieurs tâches telles que la génération de texte, l'édition et la réponse à des questions. Dans de nombreux cas, les modèles qui utilisent davantage de paramètres affichent de meilleures performances mesurées par la perplexité et la grande précision des tâches finales. C’est la principale raison du développement de modèles plus grands dans les industries. Cependant, les modèles plus grands entraînent parfois de mauvaises performances. Par exemple, le modèle 2B MiniCPM présente des capacités comparables à celles des modèles linguistiques plus grands, tels que Llama2-7B, Mistral-7B, Gemma-7B et Llama-13B. De plus, la taille des données de haute qualité disponibles pourrait ne pas suivre le rythme de l’augmentation des ressources informatiques nécessaires à la formation de modèles plus vastes.
Les méthodes actuelles pour surmonter ces lacunes comprennent les lois d'échelle, les modèles basés sur l'énergie et les modèles Hopfield. Dans les lois de mise à l'échelle, les performances des modèles augmentent lorsque la taille des modèles et le volume de données d'entraînement augmentent. Les modèles basés sur l’énergie sont devenus célèbres en tant qu’outil de modélisation fondamental dans différents domaines de l’apprentissage automatique au cours des dernières décennies. L'idée principale de cette méthode est de modéliser le réseau neuronal à l'aide d'une fonction de densité de probabilité paramétrée pour présenter la distribution en termes de fonction énergétique apprenable. Le dernier est le modèle Hopfield, dans lequel les réseaux Hopfield classiques ont été développés comme exemple de mémoire associative.
Des chercheurs du Central Research Institute, 2012 Laboratories Huawei Technologies Co., Ltd. ont introduit un cadre théorique axé sur le processus de mémorisation et la dynamique de performance des modèles de langage (LM) basés sur des transformateurs. Les chercheurs ont mené une série d'expériences en utilisant GPT-2 sur différentes tailles de données pour surmonter les signes de saturation et, en même temps, ont formé des modèles Transformer vanille sur un ensemble de données composé de 2 millions de jetons. Les résultats de ces expériences ont validé les résultats théoriques, offrant des informations théoriques importantes sur la perte d'entropie croisée optimale qui peuvent guider et améliorer la prise de décision dans la formation de modèles.
Un LM de transformateur à 12 couches est formé à l'aide du petit tokenizer et de l'architecture GPT-2 sur l'ensemble de données OpenWebText. Cet ensemble de données est similaire à l'ensemble de données WebText utilisé pour la formation du modèle GPT-2 d'origine, qui contient 9 B de jetons provenant de 8 013 769 documents. En utilisant différentes quantités de données, trois modèles sont formés dans lesquels un sous-ensemble contenant les premiers 1 % (90 M) et 0,1 % (9 M) des données OpenWebText est créé. De plus, les modèles de transformateur Vanilla sont formés à l'aide d'une petite quantité de données de haute qualité contenant des paires de phrases anglaises en formation déclarative et sans contexte avec un vocabulaire de 68 mots, où la tâche consiste à convertir des phrases déclaratives en questions.
La formation avec 0,1 % (9 M) des données OpenWebText montre un surajustement et la perte de formation disparaît au fil des itérations. Cela se produit parce que les échantillons d'apprentissage ne sont pas bien séparés, ce qui fait que l'énergie du modèle diminue jusqu'à la somme de certaines fonctions delta. Lorsque la taille du modèle est d'environ l'ordre O(D2) et formé sur 90 millions de jetons, le modèle peut obtenir une perte de formation et de validation similaire à celle du paramètre avec des jetons 9B. Deux transformateurs vanille de 6 et 10 couches sont entraînés en utilisant une taille de lot de 8, et les pertes d'entraînement se stabilisent à une valeur d'environ 1 comme prévu dans la proposition.
En conclusion, les chercheurs ont présenté un cadre théorique axé sur le processus de mémorisation et la dynamique de performance des modèles de langage basés sur des transformateurs. Dans cet article, les réseaux basés sur des transformateurs sont modélisés à l'aide de la mémoire associative, et la perte d'entropie croisée est mise en évidence pour les tailles de modèle et de données. En outre, des expériences sont réalisées en (a) utilisant GPT-2 de différentes tailles de données et (b) formant des modèles Vanilla Transformer sur un ensemble de données de 2 millions de jetons. Enfin, une fonction énergétique globale est créée pour la structure en couches des modèles de transformateur en utilisant la technique de majorisation-minimisation.
Vérifiez Papier. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N'oubliez pas non plus de nous suivre sur Twitter. Rejoignez notre Chaîne de télégramme, Chaîne Discordeet LinkedIn Groups.
Si vous aimez notre travail, vous allez adorer notre bulletin..
N'oubliez pas de rejoindre notre 42 000+ sous-reddit ML
Sajjad Ansari est un étudiant de dernière année de l'IIT Kharagpur. En tant que passionné de technologie, il se penche sur les applications pratiques de l’IA en mettant l’accent sur la compréhension de l’impact des technologies d’IA et de leurs implications dans le monde réel. Il vise à articuler des concepts complexes d’IA de manière claire et accessible.
->Google Actualités