Filiale de Google DeepMind annoncé Gopher, un modèle de traitement du langage naturel (TAL) d’IA à 280 milliards de paramètres. Basé sur Transformateur et formé sur un corpus de 10,5 To appelé MassiveText, Gopher a surpassé l’état de l’art actuel sur 100 des 124 tâches d’évaluation.
le modèle et plusieurs expériences ont été décrites dans un article publié sur arXiv. Dans le cadre de leurs efforts de recherche en IA générale, l’équipe DeepMind a formé Gopher et plusieurs modèles plus petits pour explorer les forces et les faiblesses des grands modèles de langage (LLM). En particulier, les chercheurs ont identifié les tâches où l’augmentation de l’échelle du modèle a permis d’améliorer la précision, telles que la compréhension de la lecture et la vérification des faits, ainsi que celles où cela n’a pas été le cas, comme le raisonnement logique et mathématique. L’équipe a évalué Gopher sur un grand nombre de critères de référence en PNL, y compris Compréhension massive du langage multitâche (MMLU) et BIG-banc et comparé ses performances à plusieurs modèles de base tels que GPT-3, notant une tendance générale selon laquelle Gopher a montré une amélioration constante sur les tâches à forte intensité de connaissances, mais moins sur celles à forte intensité de raisonnement. Selon l’équipe de DeepMind, Gopher fait partie de
une base pour la recherche linguistique de DeepMind à l’avenir, en particulier dans les domaines qui auront une incidence sur la façon dont ces modèles sont évalués et déployés… Cette approche est essentielle pour créer de grands modèles linguistiques qui servent la société, faisant avancer notre mission de résoudre l’intelligence pour faire avancer la science et profite à l’humanité.
Les modèles de langage prédisent l’élément suivant ou jeton dans une séquence de texte, compte tenu des jetons précédents ; lorsqu’un tel modèle est utilisé de manière itérative, avec la sortie prédite renvoyée comme entrée, le modèle est appelé autorégressif. Les modèles de langage autorégressifs basés sur l’architecture d’apprentissage en profondeur de Transformer ont établi des records de performance de pointe sur de nombreuses tâches NLP, et de nombreux chercheurs ont développé des modèles à très grande échelle. Bien que le paramètre 175B GPT-3 puisse être le plus connu, des modèles avec plus de paramètres ont été formés, y compris le paramètre 178B Jurassique-1 et le paramètre 530B Mégatron-Turing NLG.
La collecte d’un grand ensemble de données pour la formation de tels modèles est un défi. Plusieurs de ces ensembles de données ont été open-source, tels que le Pile et C4, et contiennent des documents extraits de sites Web tels que Wikipédia. L’équipe DeepMind craignait que le simple fait d’explorer le Web sans discernement puisse entacher son ensemble de données d’entraînement avec des ensembles de données de test pour ses évaluations de référence, car ceux-ci sont disponibles sur le Web. Pour éviter cela, DeepMind a développé un pipeline de préparation des données et un ensemble de données de formation personnalisé appelé MassiveText. En commençant par le contenu de C4, Wikipedia, GitHub et d’autres sources, le pipeline filtre le contenu explicite, effectue la déduplication des documents et filtre les données de test.
DeepMind a formé six modèles de taille variable, des paramètres 44M au modèle Gopher à 280B paramètres. Ils ont évalué les modèles sur une batterie de 152 tâches, dont 62 de BIG-bench, 57 de MMLU, ainsi que des tâches de référence pour la modélisation du langage, la compréhension en lecture, la vérification des faits, la réponse aux questions et le bon sens. Pour 124 de ces tâches, ils ont comparé leurs performances avec des performances de pointe connues, Gopher battant le record sur 100. L’équipe a également étudié les performances de leur modèle à différentes échelles, concluant que « [m]toutes les matières académiques, ainsi que les connaissances générales, voient de grandes améliorations venir de l’échelle seule », mais l’échelle a un « avantage réduit » pour le raisonnement logique, le bon sens et les tâches mathématiques.
Dans une actualité Hacker discussion sur Gopher, certains commentateurs se sont demandé si sa capacité à « déterrer » des informations, inspirait ses créateurs à lui donner le même nom que le pré-web Gopher système de recherche. D’autres ont discuté de la question de savoir si les modèles de langage devaient être considérés comme une « véritable » IA :
Plus nous nous rapprochons de l’intelligence artificielle, plus nous élevons la barre de ce qui est qualifié d’IA (comme il se doit). Gopher/GPT-3 sont déjà beaucoup plus précis que l’humain moyen lors de la recherche d’informations techniques.
Le rang de Gopher sur plusieurs benchmarks PNL peut être consulté sur le site Web Papers with Code.
.