Recherche Google a annoncé le développement de Une ImaGe à grande échelle et un Noisy-Text Embedding (ALIGN), un modèle d’apprentissage en profondeur pré-entraîné de 800 millions de paramètres entraîné sur un ensemble de données bruyant de 1,8 milliard de paires image-texte. Le modèle peut être utilisé sur plusieurs tâches en aval et atteint une précision de pointe sur plusieurs repères de récupération d’images et de textes.
Les chercheurs Chao Jia et Yinfei Yang ont donné un aperçu des travaux dans un récent article de blog. L’équipe a récupéré des pages html sur le Web et utilisé les balises alt-text associées aux images pour produire un ensemble de données de paires image-texte. Le modèle ALIGN, qui est une combinaison d’un BERT-style encodeur de traitement du langage naturel (NLP) et EfficientNet-style encodeur de vision par ordinateur (CV), a été pré-entraîné sur cet ensemble de données. Le résultat est un modèle qui peut mapper à la fois des images et du texte dans un espace d’intégration latent partagé. Cette incorporation partagée peut ensuite être utilisée sur plusieurs tâches d’image-texte, y compris la récupération d’image-texte et la classification d’images. Le modèle présente également des propriétés de recherche « mathématiques d’image », où une image d’un panda plus le texte « Australie » renvoie une image d’un koala.
Source : https://ai.googleblog.com/2021/05/align-scaling-up-visual-and-vision.html
La formation de grands modèles d’IA d’apprentissage en profondeur nécessite de grands ensembles de données. Alors que les modèles NLP récents ont été pré-entraînés à l’aide d’un apprentissage non supervisé sur des ensembles de données extraits du Web, la plupart des modèles de CV sont entraînés sur des ensembles de données organisés tels que ImageNet et COCO qui ont été construits et annotés par des ouvriers humains. Ainsi, ces ensembles de données sont beaucoup plus petits que les ensembles de données NLP utilisés pour entraîner des modèles tels que GPT-3; par exemple, COCO ne contient que 330 000 images, alors que GPT-3 a été formé sur près d’un demi-billion de mots.
En 2018, les chercheurs de Google ont publié un article décrivant le Ensemble de données de légendes conceptuelles, qui a été créé en récupérant des images de pages Web et en utilisant les balises alt-text pour créer des annotations pour les images. Les légendes conceptuelles contenaient autour d’images 3M, un ordre de grandeur supérieur à celui de COCO. Étant donné que les données de texte alternatif étaient « bruyantes », Google a créé un pipeline de filtrage automatisé pour améliorer la qualité des données : les images 3M nécessitaient le grattage de 5 B images, soit un taux de rejet de 99,94 %. Parallèlement à ce vaste ensemble de données, Google a également lancé le Défi des sous-titres conceptuels, qui évalue les modèles par rapport à un ensemble de tests d’environ 12,5 000 paires image-texte.
Pour cette nouvelle recherche, l’équipe de Google a supprimé les étapes de filtrage et a simplement gratté près de deux milliards de paires image-texte bruitées, deux ordres de grandeur plus grands que les légendes conceptuelles. L’ensemble de données résultant a été utilisé pour former un ALIGN, un modèle d’apprentissage en profondeur basé sur deux architectures d’encodeur, un BERT de 340M de paramètres pour les données textuelles et un EfficientNet de 480M de paramètres pour les images, en utilisant la perte de contraste comme objectif de formation pour le modèle combiné . L’équipe a évalué le modèle résultant sur la Flickr30K et les benchmarks COCO, en utilisant à la fois des scénarios de mise à zéro et de réglage fin. Par rapport aux travaux précédents, ALIGN a atteint une nouvelle précision de pointe sur toutes les tâches, par une « grande marge ». Le modèle se comporte également bien sur le benchmark de classification ImageNet, marquant la 6e place du classement.
Plusieurs autres organisations ont récemment étudié des modèles combinés vision-langage. En janvier de cette année, OpenAI a publié le Modèle CLIP qui a également été formé sur un ensemble de données basé sur des balises de texte alternatif, contenant 400 millions de paires image-texte. CLIP avait établi les précédents records de pointe sur de nombreux points de référence utilisés pour évaluer ALIGN et a été open source sur GitHub. En avril, Alibaba a annoncé son modèle M6 qui a été formé sur un ensemble de données image-texte de 1,9 To d’images et 292 Go de texte, également extrait du Web.
Dans une discussion sur Reddit, écrivain AI Gwern Branwen a comparé ALIGN à recherches similaires fait par la filiale de Google DeepMind, notant
La fusion intramodale est peut-être sous-performante, mais néanmoins, de simples arcs signifient « les TPU vont brrrrr » et obtiennent SOTA et cet ALIGN bat même CLIP !
L’équipe Google présentera son article sur ALIGN lors du prochain Conférence internationale sur l’apprentissage automatique (ICML).
.