Accueil Google Google et DeepMind lancent une référence pour les transformateurs à longue portée

Google et DeepMind lancent une référence pour les transformateurs à longue portée

Par

novembre 13, 2020

Google Research et DeepMind ont récemment lancé Long-Range Arena (LRA), une référence pour l’évaluation de la recherche Transformer sur des tâches nécessitant de longues séquences.

Les mécanismes d’attention formables dans les architectures Transformer peuvent identifier des dépendances complexes entre les éléments de séquence d’entrée et ont fait des transformateurs l’architecture SOTA dans la PNL et d’autres domaines de recherche ML. Les architectures de transformateur partagent cependant un inconvénient: leur complexité mémoire évolue de manière quadratique lorsque le nombre de jetons dans une séquence d’entrée augmente. Cela a fait leur usage prohibitif dans les domaines nécessitant des séquences plus longues.

Il y a eu un intérêt croissant pour la création de modèles Transformer plus efficaces pour réduire l’empreinte mémoire et les besoins de calcul. Dans le journalArène à longue portée: une référence pour des transformateurs efficaces, Les chercheurs de Google et DeepMind présentent le benchmark LRA pour évaluer la qualité et l’efficacité des modèles Transformer dans des scénarios à long contexte.

La suite de tests LRA teste les capacités des modèles pour traiter divers types et structures de données tels que le texte, les mathématiques et les données visuelles. Il comprend à la fois des tâches de sondage synthétiques et des tâches du monde réel comprenant des séquences allant de 1K à 16K jetons:

Longue listeOps
Classification des textes au niveau des octets
Récupération de documents au niveau des octets
Classification d’image sur des séquences de pixels
Pathfinder (dépendance spatiale à longue portée)
Pathfinder-X (dépendances spatiales à longue portée avec des longueurs extrêmes)

Les chercheurs ont utilisé ces tâches pour évaluer dix modèles de transformateurs efficaces récemment proposés: Modèle d’attention locale, Transformateurs clairsemés, Réformateur, Linformer, Longformer, Transformateurs Sinkhorn, Interprètes, Synthétiseurs, transformateurs linéaires et Gros oiseau.

Les résultats expérimentaux sur le benchmark de la LRA ont confirmé l’observation précédente sur les transformateurs: que la longueur extrême d’une tâche pouvait considérablement entraver la capacité des modèles à effectuer. Par exemple, aucun modèle n’a appris quoi que ce soit de significatif sur la tâche Path-X, qui est la même que la tâche Pathfinder standard mais pour ses longueurs de séquence beaucoup plus longues.

À l’aide de la tâche de classification de texte au niveau des octets, l’équipe a examiné les temps d’exécution et la consommation de mémoire des longueurs de séquence. Ici, les modèles Performer et Linformer ont très bien évolué, l’utilisation de la mémoire à 3K et 4K étant à peu près égale.

Google Et Deepmind Lancent Une Référence Pour Les Transformateurs À Longue Portée 6

Google Et Deepmind Lancent Une Référence Pour Les Transformateurs À Longue Portée 7

Les chercheurs affirment qu’il s’agit de la première comparaison côte à côte étendue de ces dix modèles de transformateurs. Les résultats globaux indiquant que chacun comporte des compromis en termes de qualité et de vitesse / mémoire, et il n’y a pas de solution universelle. L’équipe espère que la LRA pourra conduire à une meilleure compréhension des modèles de transformateurs efficaces et à davantage de recherches dans ce sens.

Le papier Arène à longue portée: une référence pour des transformateurs efficaces est disponible sur arXiv, et le code est open-source sur GitHub.

Journaliste: Fangyu Cai | Éditeur: Michael Sarazen

Rapport synchronisé | Une enquête sur les solutions d’intelligence artificielle en Chine en réponse à la pandémie COVID-19 – 87 études de cas de plus de 700 fournisseurs d’IA

Ce rapport offre un aperçu de la manière dont la Chine a exploité les technologies d’intelligence artificielle dans la bataille contre le COVID-19. Il est également disponible sur Kindle d’Amazon. Parallèlement à ce rapport, nous avons également introduit un base de données couvrant 1428 solutions d’intelligence artificielle supplémentaires issues de 12 scénarios de pandémie.

Cliquez sur ici pour trouver plus de rapports de notre part.

Nous savons que vous ne voulez manquer aucune actualité ou découverte de recherche. Abonnez-vous à notre populaire newsletter AI mondiale synchronisée chaque semaine pour obtenir des mises à jour hebdomadaires de l’IA.

Rate this post

Google et DeepMind lancent une référence pour les transformateurs à longue portée

Comme ça:

LAISSER UN COMMENTAIRE Annuler la réponse

Explication de la « fin heureuse » de chaque personnage dans God of War Ragnarok

Un pirate informatique anonyme a volé 600 millions de dollars en crypto-monnaie, puis l’a...