Google Research et DeepMind ont récemment lancé Long-Range Arena (LRA), une référence pour l’évaluation de la recherche Transformer sur des tâches nécessitant de longues séquences.

Les mécanismes d’attention formables dans les architectures Transformer peuvent identifier des dépendances complexes entre les éléments de séquence d’entrée et ont fait des transformateurs l’architecture SOTA dans la PNL et d’autres domaines de recherche ML. Les architectures de transformateur partagent cependant un inconvénient: leur complexité mémoire évolue de manière quadratique lorsque le nombre de jetons dans une séquence d’entrée augmente. Cela a fait leur usage prohibitif dans les domaines nécessitant des séquences plus longues.

Il y a eu un intérêt croissant pour la création de modèles Transformer plus efficaces pour réduire l’empreinte mémoire et les besoins de calcul. Dans le journalArène à longue portée: une référence pour des transformateurs efficaces, Les chercheurs de Google et DeepMind présentent le benchmark LRA pour évaluer la qualité et l’efficacité des modèles Transformer dans des scénarios à long contexte.

Image.png

La suite de tests LRA teste les capacités des modèles pour traiter divers types et structures de données tels que le texte, les mathématiques et les données visuelles. Il comprend à la fois des tâches de sondage synthétiques et des tâches du monde réel comprenant des séquences allant de 1K à 16K jetons:

  • Longue listeOps
  • Classification des textes au niveau des octets
  • Récupération de documents au niveau des octets
  • Classification d’image sur des séquences de pixels
  • Pathfinder (dépendance spatiale à longue portée)
  • Pathfinder-X (dépendances spatiales à longue portée avec des longueurs extrêmes)

Les chercheurs ont utilisé ces tâches pour évaluer dix modèles de transformateurs efficaces récemment proposés: Modèle d’attention locale, Transformateurs clairsemés, Réformateur, Linformer, Longformer, Transformateurs Sinkhorn, Interprètes, Synthétiseurs, transformateurs linéaires et Gros oiseau.

Publicité

Les résultats expérimentaux sur le benchmark de la LRA ont confirmé l’observation précédente sur les transformateurs: que la longueur extrême d’une tâche pouvait considérablement entraver la capacité des modèles à effectuer. Par exemple, aucun modèle n’a appris quoi que ce soit de significatif sur la tâche Path-X, qui est la même que la tâche Pathfinder standard mais pour ses longueurs de séquence beaucoup plus longues.

À l’aide de la tâche de classification de texte au niveau des octets, l’équipe a examiné les temps d’exécution et la consommation de mémoire des longueurs de séquence. Ici, les modèles Performer et Linformer ont très bien évolué, l’utilisation de la mémoire à 3K et 4K étant à peu près égale.

Image.png
Google Et Deepmind Lancent Une Référence Pour Les Transformateurs À Longue Portée 6
Image.png
Google Et Deepmind Lancent Une Référence Pour Les Transformateurs À Longue Portée 7

Les chercheurs affirment qu’il s’agit de la première comparaison côte à côte étendue de ces dix modèles de transformateurs. Les résultats globaux indiquant que chacun comporte des compromis en termes de qualité et de vitesse / mémoire, et il n’y a pas de solution universelle. L’équipe espère que la LRA pourra conduire à une meilleure compréhension des modèles de transformateurs efficaces et à davantage de recherches dans ce sens.

Le papier Arène à longue portée: une référence pour des transformateurs efficaces est disponible sur arXiv, et le code est open-source sur GitHub.


Journaliste: Fangyu Cai | Éditeur: Michael Sarazen


B4.Png

Rapport synchronisé | Une enquête sur les solutions d’intelligence artificielle en Chine en réponse à la pandémie COVID-19 – 87 études de cas de plus de 700 fournisseurs d’IA

Ce rapport offre un aperçu de la manière dont la Chine a exploité les technologies d’intelligence artificielle dans la bataille contre le COVID-19. Il est également disponible sur Kindle d’Amazon. Parallèlement à ce rapport, nous avons également introduit un base de données couvrant 1428 solutions d’intelligence artificielle supplémentaires issues de 12 scénarios de pandémie.

Cliquez sur ici pour trouver plus de rapports de notre part.


Ai Weekly.png

Nous savons que vous ne voulez manquer aucune actualité ou découverte de recherche. Abonnez-vous à notre populaire newsletter AI mondiale synchronisée chaque semaine pour obtenir des mises à jour hebdomadaires de l’IA.

Rate this post
Publicité
Article précédentLa vidéo du deuxième film Seitokai Yakuindomo révèle, avant-première la chanson thématique – Actualités
Article suivantUne sélection d’équipes de football amateur des années 1980
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici