Ab Blocksfrde

Alors que les tailles de lots de Google pour la formation à l’IA continuent de monter en flèche, avec des tailles de lots allant de plus de 100 000 à un million, le service de recherche de l’entreprise cherche des moyens d’améliorer tout, de l’efficacité à l’évolutivité et même à la confidentialité pour ceux dont les données sont utilisées à grande échelle. -des parcours d’entraînement à l’échelle.

Cette semaine, Google Research a publié un certain nombre d’articles sur les nouveaux problèmes émergents à l’échelle de la formation « méga-lots » pour certains de ses modèles les plus utilisés.

L’un des nouveaux éléments les plus remarquables des tranchées d’entraînement à grande échelle concerne l’apprentissage actif par lots dans le stade de la taille d’un million de lots. Essentiellement, cela réduit la quantité de données d’entraînement (donc le calcul des ressources/temps) en automatisant une partie de l’étiquetage, ce qui est excellent pour l’efficacité mais présente des inconvénients en termes de flexibilité et de précision.

Google Research a développé son propre algorithme d’apprentissage actif à superposer dans des ensembles d’entraînement appelés Cluster-Marge, qui, selon eux, peuvent fonctionner à des échelles de taille de lot « ordres de grandeur » plus grandes que les autres approches de l’apprentissage actif. En utilisant l’ensemble de données d’images ouvertes avec dix millions d’images et soixante millions d’étiquettes dans 20 000 classes, ils ont découvert que Cluster-Margin n’avait besoin que de 40 % des étiquettes pour les mêmes cibles.

Dans l’apprentissage actif, les étiquettes des exemples d’entraînement sont échantillonnées de manière sélective et adaptative pour entraîner plus efficacement le modèle souhaité sur plusieurs itérations. « La nature adaptative des algorithmes d’apprentissage actif, qui permet d’améliorer l’efficacité des données, se fait au prix d’un recyclage fréquent du modèle et d’un appel à l’oracle d’étiquetage. Ces deux coûts peuvent être importants. Par exemple, de nombreux réseaux profonds modernes peuvent prendre des jours ou des semaines à s’entraîner et nécessiter des centaines d’heures CPU/GPU. Dans le même temps, former des étiqueteurs humains à devenir compétents dans des tâches d’étiquetage potentiellement nuancées nécessite un investissement important à la fois de la part des concepteurs de la tâche d’étiquetage et des évaluateurs eux-mêmes. Un ensemble de requêtes suffisamment important doit être mis en file d’attente afin de justifier ces coûts », expliquent les créateurs de Cluster-Margin.

Publicité

Le gain d’efficacité, en particulier à cette échelle, n’est pas difficile à imaginer, mais à mesure que Google progresse dans une formation à plus grande échelle, il y a d’autres problèmes plus éthérés à résoudre, en particulier lorsque des lots massifs signifient extraire des données (éventuellement personnelles) pour la formation.

Faire évoluer le géant du modèle de langage, BERT, à l’aide d’énormes tailles de lots a été son propre géant en montée pour Google et les quelques autres opérant à l’échelle de plus d’un million de lots. Maintenant, l’impulsion est de maintenir une évolutivité efficace tout en ajoutant des mesures de confidentialité qui n’entravent pas les performances, l’évolutivité ou l’efficacité.

Une autre équipe de Google Research a montré cette semaine qu’elle peut adapter BERT à des tailles de lots par millions avec un couche de confidentialité, appelé SGD différentiellement privé, qui est une étape lourde lors de la pré-formation. L’implémentation de cette couche sacrifie une certaine précision avec la précision du modèle de langage masqué dans cette implémentation BERT à 60,5% sur une taille de lot de deux millions. Les modèles BERT non privés utilisés par Google atteignent un taux de précision d’environ 70 %. Ils ajoutent que la taille de lot qu’ils ont utilisée pour leurs résultats est 32 fois plus grande que le modèle BERT non privé.

Comme l’expliquent les créateurs de l’algorithme, « Pour atténuer ces [privacy] préoccupations, le cadre et les propriétés de la confidentialité différentielle (DP) [DMNS06, DKM+06] fournir une approche convaincante pour contrôler et empêcher rigoureusement la fuite d’informations utilisateur sensibles présentes dans l’ensemble de données d’entraînement. En gros, DP garantit que la distribution de sortie d’un algorithme (randomisé) ne change pas sensiblement si un seul exemple d’apprentissage est ajouté ou supprimé ; ce changement est paramétré par deux nombres : plus ces valeurs sont petites, plus l’algorithme est privé.

Précision et confidentialité vont de pair dans d’autres domaines pour une formation à grande échelle chez Google Research. Des modèles plus grands, des tailles de lots plus massives signifient une difficulté croissante à gérer la cohérence des résultats et à éviter le sous-ajustement ou le sur-apprentissage. Google travaille sur le développement de nouvelles techniques d’étalonnage qui peuvent suivre l’échelle des courses d’entraînement croissantes. Une autre équipe de Google Research a publié cette semaine résultats sur l’étalonnage doux techniques qui réduisent de 82 % les erreurs d’étalonnage des approches existantes.

L’équipe explique qu’une comparaison des objectifs d’étalonnage souples en tant que pertes secondaires aux pertes existantes d’incitation à l’étalonnage révèle que « les objectifs d’entraînement sensibles à l’étalonnage dans leur ensemble (pas toujours ceux que nous proposons) donnent de meilleures estimations d’incertitude par rapport à la perte d’entropie croisée standard. couplé à une mise à l’échelle de la température. Ils montrent également que les pertes composites obtiennent un ECE à modèle unique de pointe en échange d’une réduction de moins de 1 % de la précision pour CIFAR-10, CIFAR-100 et Imagenet, qui ont servi de lignes de base.

Dans le passé, l’évolutivité pure des modèles était au cœur de ce que nous voyions sortir de Google Research sur le front de la formation. Le fait que ce que nous voyons plus récemment, y compris ces derniers jours, est la preuve que la mise à l’échelle du modèle elle-même cède la place à des éléments plus nuancés pour une formation à grande échelle, allant de l’amélioration/amélioration des résultats à l’ajout de la confidentialité. Cela signifie que les modèles eux-mêmes s’avèrent à l’échelle de plus d’un million de lots, laissant la place à la création de réseaux de neurones plus efficaces.

Abonnez-vous à notre lettre d’information

Mettant en vedette des faits saillants, des analyses et des histoires de la semaine directement de nous dans votre boîte de réception sans rien entre les deux. Abonnez-vous maintenant

Rate this post
Publicité
Article précédentTaille du marché PPIS actuelle et future
Article suivantAriana Grande a réparé Fortnite pour moi après qu’un coma l’ait ruiné
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici