Accueil Google L’IA Image-Texte LIMoE de Google surpasse CLIP sur imageNet Benchmark

L’IA Image-Texte LIMoE de Google surpasse CLIP sur imageNet Benchmark

Par

juillet 19, 2022

Chercheurs at Google Cerveau récemment formé Mélange langue-image d’experts (LIMoE), un modèle d’IA image-texte de paramètre de 5,6 B. Dans les expériences d’apprentissage zéro coup sur ImageNet, LIMoE surperforme CAPTURE et fonctionne de manière comparable aux modèles de pointe tout en utilisant moins de ressources de calcul.

Le modèle et plusieurs expériences ont été décrits dans un article publié sur arXiv. LIMoE combine un sparse mélange d’experts (MoE) avec l’architecture Transformer, qui permet d’augmenter le nombre de paramètres du modèle tout en maintenant de faibles exigences de calcul pendant l’inférence. Contrairement à CLIP et à d’autres modèles image-texte « à deux tours » qui utilisent des réseaux d’encodeurs distincts pour les images et le texte, LIMoE dispose d’un encodeur unique pour les deux modalités, ce qui a le potentiel d’une meilleure évolutivité et généralité. Selon l’équipe de Google Brain :

Les modèles multimodaux qui gèrent de nombreuses tâches sont une voie prometteuse pour aller de l’avant, et il y a deux ingrédients clés pour réussir: l’échelle et la capacité d’éviter les interférences entre des tâches et des modalités distinctes tout en tirant parti des synergies. Le calcul conditionnel clairsemé est un excellent moyen de faire les deux. Il permet des modèles généralistes performants et efficaces qui ont également la capacité et la flexibilité nécessaires pour la spécialisation nécessaire pour exceller dans des tâches individuelles, comme en témoignent les performances solides de LIMoE avec moins de calcul.

Le développement de LIMoE fait partie de Google Voies stratégie pour développer des modèles d’IA de nouvelle génération. L’un des principes de cet effort est l’utilisation de clairsemé modèles de réseaux neuronaux, dans lesquels seuls quelques-uns des Voies via le réseau sont activés. Cela signifie que l’utilisation du modèle pour l’inférence nécessite une fraction des ressources de calcul — et donc de l’énergie — utilisée par un modèle dense de taille comparable. InfoQ a récemment fait un rapport sur Google Paume modèle de langage, également développé dans le cadre du projet Pathways. En 2021, InfoQ a rapporté sur Google Transformateur de commutation, un modèle de langage du ministère de l’Éducation clairsemé qui est antérieur à l’annonce officielle de Pathways, mais qui est conçu en utilisant certains de ses principes.

LIMoE est basé sur l’architecture Transformer, dans laquelle la séquence des jetons d’entrée est traitée par une série de blocs identiques qui contiennent plusieurs couches de réseaux neuronaux, y compris une couche d’attention et une simple couche d’avance. Dans LIMoE, la couche d’avance est remplacée par un couche experte qui contient des couches d’avance parallèles appelées Experts, et un routeur qui détermine quels experts gèrent un jeton donné.

L’équipe Brain a trouvé plusieurs défis dans l’entraînement de ce modèle. Un défi, commun à tous les modèles MoE, est de s’assurer que le modèle ne s’effondre pas; c’est-à-dire que le routeur ne choisit pas toujours le même expert. Un autre défi, propre aux données multimodales, est le « déséquilibre de modalité »; par exemple, le jeu de données peut contenir beaucoup plus de texte que de données d’image. Dans ce cas, l’effondrement du modèle peut se produire pour la modalité plus petite. Pour remédier à ces défis, l’équipe a introduit deux nouvelles pertes d’entraînement : l’entropie locale, qui « encourage les poids concentrés des routeurs », et l’entropie globale, qui se traduit par une « utilisation diversifiée par des experts ».

L’auteur principal Basil Mustafa a publié un Twitter fil de discussion sur le travail et a répondu aux questions des utilisateurs. Lorsqu’un utilisateur lui a demandé de préciser comment le réseau était « difficile » à former, Mustafa a répondu:

La configuration LIMoE est stable en cela, étant donné qu’elle est bonne [hyper-parameters]c’est [very] reproductible et bon de manière fiable. Toutefois [in my opinion] encore un peu sensible à ces [hyper-parameters]; parfois [the] la recette échoue et nécessite un réglage par essais et erreurs.

Google n’a pas publié le code du modèle LIMoE, mais Mustafa a suggéré le code serait disponible sur GitHub avec un modèle MoE clairsemé pour la vision dans « quelques mois ».

Rate this post

L’IA Image-Texte LIMoE de Google surpasse CLIP sur imageNet Benchmark

LAISSER UN COMMENTAIRE Annuler la réponse

Device Connect for Fitbit simplifie les appareils portables pour les soins de santé

Horizon: Forbidden West examen en cours – beaucoup d’Aloy