Chercheurs de Google, Facebook, et Microsoft ont publié leurs travaux récents sur les modèles d’IA multilingues. Google et Microsoft ont publié des modèles qui permettent d’obtenir de nouvelles performances de pointe sur les tâches PNL mesurées par le XTREME benchmark, tandis que Facebook a produit un modèle de traduction plusieurs-à-plusieurs non centré sur l’anglais.
Les équipes de Microsoft Research, Google Research et Facebook AI Research (FAIR) ont travaillé sur le problème des modèles de traitement du langage naturel unique (NLP) pour plusieurs langues. Project Turing de Microsoft a développé la deuxième version du Représentation du langage universel de Turing (T-ULRv2), un modèle qui peut encoder des phrases de texte de 94 langues différentes dans le même espace vectoriel. T-ULRv2 occupe actuellement la première place sur le Classement de référence XTREME, qui classe les performances du modèle sur une variété de tâches NLP dans 40 langues. Google a développé mT5, une extension multilingue du modèle T5, qu’ils ont formé sur mC4, un nouvel ensemble de données multilingue à grande échelle extrait de Exploration commune référentiel, contenant des jetons 6.3T dans plus de 100 langues. Google revendique également des résultats de pointe sur XTREME, mais le modèle n’a pas été inclus dans le dernier classement. Le modèle de traduction de Facebook, M2M-100, a été formé sur CCMatrix, un autre ensemble de données extrait de Common Crawl, contenant 100 langues, avec 7,5 milliards de phrases parallèles dans 2200 combinaisons source-destination. M2M-100 surpasse les modèles formés sur des ensembles de données centrés sur l’anglais. Selon Angela Fan, chercheuse à FAIR:
Un modèle unique prenant en charge toutes les langues, tous les dialectes et toutes les modalités nous aidera à mieux servir plus de personnes, à maintenir les traductions à jour et à créer de nouvelles expériences pour des milliards de personnes également. Ce travail nous rapproche de cet objectif.
Une grande partie du succès récent de l’utilisation de l’apprentissage en profondeur pour la PNL est en partie due à l’apprentissage par transfert: mise au point de grands modèles qui ont été pré-entraînés sur un vaste ensemble de données extrait du Web. Étant donné que la plupart des données sont en anglais, cela limite l’utilisation du modèle aux tâches en anglais uniquement. Bien que les modèles puissent également être formés sur des données autres que l’anglais, de nombreuses langues sont considérées comme «à faibles ressources», ce qui signifie qu’il y a un manque de données d’apprentissage dans cette langue. Des expériences ont montré que le pré-apprentissage d’un modèle PNL unique avec des données de plusieurs langues peut produire un modèle qui fonctionne « étonnamment bien » sur des tâches multilingues, éventuellement en apprenant des structures universelles communes à plusieurs langues. Ces modèles sont souvent basés sur les variations du Modèle BERT, comprenant BERT multilingue (mBERT) et FAIR’s XLM-R. Pour évaluer les performances des modèles multilingues, les chercheurs ont développé versions multilingues des repères PNL communs; par exemple, le benchmark XTREME mesure les performances sur la classification des phrases, la récupération de phrases, la prédiction structurée et la réponse aux questions dans 40 langues.
Les chercheurs de Google ont appliqué le concept de formation d’un modèle existant sur plusieurs langues à leur Modèle T5. T5 a établi des records de performance sur plusieurs points de référence de la PNL pour la compréhension du langage et la réponse aux questions, y compris un « score quasi-humain » sur le Référence SuperGLUE. Le nouveau modèle, mT5, a été formé sur une version multilingue du Ensemble de données Common Crawl, mC4, qui contient des données en 101 langues extraites du Web. Le modèle mT5 est basé sur l’architecture Transformer et contient des paramètres 13B et «correspond ou dépasse l’état de l’art» sur toutes les tâches XTREME. Le T-ULRv2 de Microsoft est également basé sur l’architecture Transformer, avec 550M paramètres, et s’appuie sur un modèle appelé InfoXLM. Bien que le document de Google affirme que mT5 surpasse InfoXLM sur XTREME, le nouveau T-ULRv2 de Microsoft occupe le premier rang du classement public XTREME, qui était auparavant détenu par un modèle développé par Alibaba, et mT5 ne figure pas du tout dans le classement.
Alors que les modèles de Google et de Microsoft sont conçus pour être affinés pour les tâches PNL telles que la réponse aux questions, Facebook s’est concentré sur le problème de la traduction automatique neuronale (NMT). Là encore, ces modèles sont souvent formés sur des données accessibles au public, constituées de textes «parallèles» dans deux langues différentes, et là encore le problème des langues à faibles ressources est courant. La plupart des modèles s’entraînent donc sur des données dans lesquelles l’une des langues est l’anglais, et bien que les modèles résultants puissent effectuer une traduction «zéro coup» entre deux langues autres que l’anglais, la qualité de ces traductions est souvent médiocre.
Pour résoudre ce problème, les chercheurs de Facebook ont d’abord collecté un ensemble de données de textes parallèles en exploitant les données Common Crawl pour trouver des «phrases qui pourraient être des traductions potentielles», en mappant des phrases dans un espace d’intégration à l’aide d’un modèle d’apprentissage en profondeur existant appelé LASER et trouver des paires de phrases de différentes langues avec des valeurs d’intégration similaires. L’équipe a formé un modèle Transformer de 15,4B paramètres sur ces données. Le modèle résultant peut traduire entre 100 langues sans «pivoter» vers l’anglais, avec des performances comparables à celles des modèles bilingues dédiés.
Tous les deux M2M-100 de Facebook et MT5 de Google le code et les modèles sont disponibles sur GitHub. Les scripts de Facebook pour téléchargement et nettoyage leur ensemble de données multilingues est également disponible sur GitHub et sur Google Jeu de données mC4 est disponible dans le cadre du package TensorFlow Dataset. Le modèle de Microsoft n’est pas open-source, mais est disponible en aperçu privé. Microsoft modèles de langage unifiés (ULM) Le projet GitHub contient un dossier pour InfoXLM, la technologie derrière T-ULRv2, mais elle ne contient qu’un lien vers l’article arXiv.
.