Le succès phénoménal du BERT de Google et d’autres modèles de traitement du langage naturel (PNL) basés sur des transformateurs n’est pas accidentel. Derrière toutes les performances SOTA se cache le mécanisme d’auto-attention innovant des transformateurs, qui permet aux réseaux de capturer des informations contextuelles à partir d’une séquence de texte entière. cependant, les exigences de mémoire et de calcul de l’attention personnelle croissent de façon quadratique avec la longueur de la séquence, ce qui rend très coûteux l’utilisation de modèles basés sur des transformateurs pour le traitement longues séquences.

Pour atténuer la dépendance quadratique des transformateurs, une équipe de chercheurs de Google Research a récemment proposé un nouveau mécanisme d’attention clairsemé baptisé BigBird. Dans leur papier Big Bird: des transformateurs pour des séquences plus longues, l’équipe démontre qu’en dépit d’être un mécanisme d’attention clairsemé, BigBird préserve toutes les propriétés théoriques connues des modèles quadratiques d’attention complète. Dans les expériences, Il a été démontré que BigBird améliore considérablement les performances des tâches PNL à long contexte, produisant des résultats SOTA en réponse aux questions et résumé.

image.png

Les chercheurs ont conçu BigBird pour satisfaire toutes les propriétés théoriques connues des transformateurs complets, en intégrant trois composants principaux dans le modèle:

  • Un ensemble de jetons globaux g qui s’occupent de toutes les parties d’une séquence.
  • Pour chaque requête qi, un ensemble de r clés aléatoires auxquelles chaque requête s’occupera.
  • Un bloc de voisins locaux w pour que chaque nœud s’occupe de leur structure locale

Celles-ci les innovations permettent à BigBird de gérer des séquences jusqu’à huit fois plus longues que ce qui était auparavant possible avec du matériel standard.

image.png

De plus, inspirée par la capacité de BigBird à gérer des contextes longs, l’équipe a introduit une nouvelle application de modèles basés sur l’attention pour extraire des représentations contextuelles de séquences génomiques comme l’ADN. Lors d’expériences, BigBird s’est avéré bénéfique pour le traitement des séquences d’entrée plus longues et a également amélioré les performances des tâches en aval telles que la prédiction de la région du promoteur et du profil de la chromatine.

image.png
image.png
image.png

Le papier Big Bird: des transformateurs pour des séquences plus longues est sur arXiv.


Journaliste: Fangyu Cai | Éditeur: Michael Sarazen


Image pour publication

Rapport synchronisé | Une enquête sur les solutions d’intelligence artificielle en Chine en réponse à la pandémie COVID-19 – 87 études de cas de plus de 700 fournisseurs d’IA

Ce rapport offre un aperçu de la façon dont le gouvernement chinois et les propriétaires d’entreprise ont exploité les technologies d’intelligence artificielle dans la bataille contre le COVID-19. Il est également disponible sur Kindle d’Amazon.

Cliquez sur ici pour trouver plus de rapports de notre part.


Nous savons que vous ne voulez manquer aucune histoire. Abonnez-vous à notre populaire AI mondiale synchronisée chaque semaine pour obtenir des mises à jour hebdomadaires de l’IA.

Leave a Reply