La communauté PNL a récemment découvert que les modèles de langage pré-entraînés peuvent accomplir diverses activités du monde réel à l’aide d’ajustements mineurs ou d’une assistance directe. De plus, les performances s’améliorent généralement à mesure que la taille augmente. Les modèles de langage moderne incluent souvent des centaines de milliards de paramètres, poursuivant cette tendance. Plusieurs groupes de recherche ont publié des LLM préformés avec plus de 100B paramètres. Le projet BigScience a récemment mis à disposition BLOOM, un modèle de 176 milliards de paramètres qui prend en charge 46 langages naturels et 13 langages informatiques. La disponibilité publique des modèles de paramètres 100B + les rend plus accessibles, mais en raison des dépenses de mémoire et de calcul, la plupart des universitaires et des praticiens trouvent toujours difficile de les utiliser. Pour l’inférence, OPT-175B et BLOOM-176B nécessitent plus de 350 Go de RAM accélératrice et encore plus pour le réglage fin.
Par conséquent, l’exécution de ces LLM nécessite généralement plusieurs GPU puissants ou clusters multi-nœuds. Ces deux alternatives sont relativement peu coûteuses, limitant les sujets d’étude potentiels et les applications du modèle de langage. En « déchargeant » les paramètres du modèle vers une mémoire plus lente mais plus abordable et en les exécutant sur l’accélérateur couche par couche, plusieurs efforts récents visent à démocratiser les LLM. En chargeant les paramètres de la RAM juste à temps pour chaque passe avant, cette technique permet d’exécuter des LLM avec un seul accélérateur bas de gamme. Bien que le déchargement ait une latence élevée, il peut traiter plusieurs jetons en parallèle. Par exemple, ils produisent un jeton avec BLOOM-176B qui nécessite au moins 5,5 secondes pour le système de déchargement de RAM le plus rapide et 22 secondes pour l’arrangement de déchargement SSD le plus rapide.
De plus, de nombreuses machines manquent de RAM suffisante pour décharger les paramètres 175B. Les LLM peuvent être rendus plus largement disponibles via des API d’inférence publiques, où une partie héberge le modèle et permet aux autres de l’interroger en ligne. C’est un choix assez convivial car le propriétaire de l’API gère la majeure partie de l’effort d’ingénierie. Cependant, les API sont souvent trop rigides pour être utilisées dans la recherche car elles ne peuvent pas modifier la structure de contrôle du modèle ni avoir accès à ses états internes. De plus, le coût de certaines initiatives de recherche peut être exorbitant, compte tenu du prix actuel de l’API. Dans cette étude, ils étudient une approche différente motivée par la formation généralisée de crowdsourcing des réseaux de neurones à partir de zéro.
Ils développent PETALS, un framework qui permet la collaboration en ligne entre plusieurs utilisateurs pour déduire et optimiser des modèles de langage importants. Chaque joueur contrôle un client, un serveur ou les deux. Un serveur répond aux requêtes des clients et conserve une partie des couches du modèle sur son appareil local. Pour effectuer l’inférence du modèle complet, un client peut créer une chaîne de serveurs successifs parallèles au pipeline. En plus de l’inférence, les participants peuvent ajuster le modèle en formant toutes les couches ou en utilisant des techniques de formation efficaces en paramètres comme les adaptateurs ou le réglage rapide. Les sous-modules peuvent être publiés sur un hub de modèle après la formation afin que d’autres puissent les utiliser pour l’inférence ou une formation supplémentaire.
Ils montrent également comment plusieurs améliorations, notamment la quantification dynamique, la priorisation des connexions à faible latence et l’équilibrage de charge sur les serveurs, peuvent permettre aux modèles 100B+ actuels de bien fonctionner dans cet environnement. Enfin, ils couvrent les problèmes de sécurité et de confidentialité, les récompenses pour l’utilisation du système et la manière dont le modèle pourrait être amélioré au fil du temps. Le code est disponible gratuitement sur GitHub et a également déployé son application de chat.
Vérifiez Papier, Code, et Outil. Tout le mérite de cette recherche revient aux chercheurs de ce projet. N’oubliez pas non plus de vous inscrire notre page Reddit et canal de discordeoù nous partageons les dernières nouvelles sur la recherche en IA, des projets d’IA sympas, et plus encore.
Aneesh Tickoo est consultante stagiaire chez MarktechPost. Il poursuit actuellement ses études de premier cycle en science des données et en intelligence artificielle à l’Institut indien de technologie (IIT) de Bhilai. Il passe la plupart de son temps à travailler sur des projets visant à exploiter la puissance de l’apprentissage automatique. Son intérêt de recherche est le traitement d’images et est passionné par la construction de solutions autour de celui-ci. Il aime se connecter avec les gens et collaborer sur des projets intéressants.