Cet article fait partie de Demystifying AI, une série d’articles qui (tentent de) lever l’ambiguïté du jargon et des mythes entourant l’IA.

Les grands modèles de langage (LLM) ont fait des vagues, démontrant des performances exceptionnelles dans de nombreuses tâches. Cependant, leurs capacités impressionnantes présentent un inconvénient majeur : des coûts de calcul élevés.

Les modèles haut de gamme tels que LLaMA 2 et Falcon peuvent nécessiter des dizaines, voire des centaines, de gigaoctets de mémoire GPU. Cela les rend non seulement coûteux à exploiter, mais présente également un formidable défi en termes de configuration. De plus, leur nature gourmande en ressources rend presque impossible leur exécution sur des appareils de pointe sans accès à des serveurs cloud robustes.

Pour surmonter ces obstacles, les chercheurs ont développé une gamme de techniques de compression innovantes. Ces méthodes visent à rendre les LLM plus compacts, leur permettant de s’adapter à des appareils aux ressources limitées. De plus, ils peuvent améliorer la vitesse de ces modèles et réduire la latence d’inférence, les rendant ainsi plus efficaces.

Dans cet article, nous plongerons dans le monde des techniques de compression LLM. Nous explorerons leur fonctionnement, les compromis impliqués et l’impact qu’ils peuvent avoir sur les applications LLM.

Publicité

Taille LLM

Roses de taille printanière dans le jardin, mains du jardinier avec sécateur
Roses de taille printanière dans le jardin, mains du jardinier avec sécateur
Source de l’image : 123RF

Comme les autres réseaux de neurones profonds, les grands modèles de langage sont composés de nombreux composants. Cependant, toutes ces composantes ne contribuent pas de manière significative aux résultats du modèle. En fait, certains peuvent avoir peu ou pas d’effet. Ces composants non essentiels peuvent être taillérendant le modèle plus compact tout en conservant les performances du modèle.

Il existe plusieurs façons d’effectuer la taille LLM, chacune avec ses propres avantages et défis. Taille non structurée implique de supprimer les paramètres non pertinents sans tenir compte de la structure du modèle. Essentiellement, l’élagage non structuré fixe à zéro les paramètres inférieurs à un certain seuil, éliminant ainsi leur impact. Il en résulte un modèle clairsemé dans lequel les poids nuls et non nuls sont distribués de manière aléatoire.

La taille non structurée est facile à mettre en œuvre. Cependant, la distribution aléatoire des poids dans l’élagage non structuré rend difficile l’optimisation matérielle. Cela nécessite des étapes de calcul et de traitement supplémentaires pour compresser le modèle clairsemé. De plus, le modèle compressé nécessite souvent un recyclage supplémentaire pour atteindre des performances optimales.

Malgré ces défis, des progrès significatifs ont été réalisés dans le domaine de la taille non structurée. Un de ces développements est GPT clairsemé, une technique développée par des chercheurs de l’Institut des sciences et technologies d’Autriche (ISTA). SparseGPT effectue un élagage en une seule fois sur les grands modèles de transformateurs tels que BLOOM et OPT, éliminant ainsi le besoin de recyclage.

Une autre technique, LoRAPrune, combine l’adaptation de bas rang (LoRA) avec l’élagage pour améliorer les performances des LLM sur les tâches en aval. LoRA est une technique de réglage fin efficace des paramètres (PEFT) qui ne met à jour qu’un petit sous-ensemble des paramètres d’un modèle fondamental. Cela en fait une méthode très efficace pour améliorer les performances du modèle.

D’autre part, taille structurée implique de supprimer des parties entières d’un modèle, telles que des neurones, des canaux ou des couches. L’avantage de l’élagage structuré est qu’il simplifie la compression du modèle et améliore l’efficacité du matériel. Par exemple, la suppression d’une couche entière peut réduire la complexité de calcul du modèle sans introduire d’irrégularités dans la structure du modèle.

Cependant, l’élagage structuré nécessite une compréhension approfondie de l’architecture du modèle et de la manière dont les différentes parties contribuent aux performances globales. Il existe également un risque plus élevé d’impact significatif sur la précision du modèle, car la suppression de neurones ou de couches entières peut potentiellement éliminer des fonctionnalités apprises importantes.

Une technique prometteuse pour la taille structurée est LLM-Sécateur. Cette méthode indépendante des tâches minimise la dépendance aux données d’entraînement originales et supprime sélectivement les structures couplées non critiques en fonction des informations de gradient. Cette approche préserve au maximum la majorité des fonctionnalités du LLM, ce qui en fait un outil efficace pour la compression de modèles.

Distillation des connaissances LLM

La distillation des connaissances est une technique d’apprentissage automatique dans laquelle un petit modèle « étudiant » est formé pour imiter le comportement d’un modèle « enseignant » plus grand et plus complexe. Le processus de formation transfère efficacement les connaissances du modèle enseignant au modèle étudiant, créant ainsi un modèle plus compact mais plus performant.

Dans le domaine des LLM, les techniques de distillation des connaissances se répartissent en deux catégories principales. La première, distillation des connaissances standards, vise à transférer les connaissances générales du modèle enseignant à l’étudiant. Par exemple, vous pouvez rassembler une série d’invites et de réponses de ChatGPT et les utiliser pour former un LLM open source plus petit. Cependant, il est important de noter qu’il existe des restrictions sur la formation des LLM sur les données collectées à partir de modèles commerciaux.

Le défi de la distillation des connaissances standard réside dans la capture précise des distributions de données sous-jacentes. MiniLLM, une technique développée par des chercheurs de l’Université Tsinghua et Microsoft Research, résout ce problème. Il utilise différentes fonctions d’objectif et d’optimisation spécialement conçues pour les LLM, améliorant ainsi l’efficacité du processus de distillation.

La deuxième catégorie, distillation des capacités émergentes, cherche à extraire une capacité spécifique que le modèle enseignant a apprise et à la transférer au modèle étudiant. Les capacités émergentes sont des capacités présentes dans les grands modèles mais pas dans les plus petits. Par exemple, vous pouvez rassembler des invites et des réponses sur des problèmes mathématiques ou de raisonnement à partir de GPT-4 et essayer de les transférer vers un modèle plus petit comme Vicuna. L’avantage de la distillation EA est qu’elle est beaucoup plus facile à mesurer car elle se concentre sur un ensemble restreint de tâches. Cependant, il est essentiel de garder à l’esprit qu’il existe des limites aux capacités des LLM qui imitent les comportements émergents de modèles plus grands.

Quantification LLM

quantification des nombres
quantification des nombres
Source de l’image : 123RF

Les LLM comme GPT-3 stockent généralement leurs paramètres sous forme de valeurs à virgule flottante. À demi-précision, chaque paramètre occupe deux octets, ce qui conduit à un modèle de la taille de GPT-3 nécessitant des centaines de gigaoctets de mémoire. La quantification, une technique de compression, convertit ces paramètres en entiers d’un seul octet ou plus petits, réduisant ainsi considérablement la taille d’un LLM.

La quantification a gagné en popularité car elle permet aux LLM open source de s’exécuter sur des appareils quotidiens comme les ordinateurs portables et de bureau. GPT4Tous et Lama.cpp sont deux exemples notables de LLM quantifiés qui ont exploité efficacement cette technique.

La quantification peut être appliquée à différentes étapes du cycle de formation du modèle. Dans formation prenant en compte la quantification (QAT), la quantification est intégrée au processus de formation. Cette approche permet au modèle d’apprendre dès le départ des représentations de faible précision, atténuant ainsi la perte de précision causée par la quantification. Cependant, l’inconvénient de QAT est qu’il nécessite de former le modèle à partir de zéro, ce qui peut être gourmand en ressources et coûteux.

Réglage fin tenant compte de la quantification (QAFT) est une autre approche dans laquelle un modèle de haute précision pré-entraîné est adapté pour maintenir sa qualité avec des poids de moindre précision. Des techniques comme QLoRA et une adaptation efficace en termes de paramètres et sensible à la quantification (PEQA) sont couramment utilisés pour QAFT.

Dernièrement, quantification post-formation (PTQ) implique de transformer les paramètres du LLM en types de données de moindre précision une fois le modèle entraîné. PTQ vise à réduire la complexité du modèle sans modifier l’architecture ni recycler le modèle. Son principal avantage est sa simplicité et son efficacité car il ne nécessite aucune formation supplémentaire. Mais elle ne préservera peut-être pas la précision du modèle original aussi efficacement que les autres techniques.

La compression LLM est un domaine de recherche fascinant en constante évolution. Pour un aperçu plus technique de la compression LLM, lisez l’article «Une enquête sur la compression de modèles pour les grands modèles de langage

4.2/5 - (40 votes)
Publicité
Article précédentLa NASA publie une nouvelle image d’une étoile nouveau-née : NPR
Article suivantMinecraft, Уилл Феррелл и герб Сербии. Masques gratuits dans le NHХЛ – Nouveaux matchs de hockey

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici