Les performances étonnantes des modèles de diffusion sur des tâches telles que la synthèse d’images, la génération vidéo et le montage 3D en ont fait une classe de modèles de choix dans la communauté de recherche en vision par ordinateur. La faible transférabilité des grands modèles de diffusion préformés pour cibler les tâches en aval reste cependant à la fois un défi pour les chercheurs et un goulot d’étranglement pour les applications réelles.

Dans le nouveau journal DiffFit : déverrouiller la transférabilité des grands modèles de diffusion via un réglage fin simple et efficace des paramètres, une équipe de recherche du Huawei Noah’s Ark Lab présente DiffFit, une technique de réglage fin efficace sur les paramètres qui permet une adaptation rapide à de nouveaux domaines (par exemple, différents ensembles de données ou différentes résolutions) pour la génération d’images de diffusion. Par rapport aux approches de réglage fin complet, DiffFit atteint des accélérations d’entraînement 2x tout en utilisant seulement ~ 0,12% des paramètres entraînables.

Image 57
Le Difffit De Huawei Libère La Transférabilité Des Modèles De Grande Diffusion Vers De Nouveaux Domaines 11

L’équipe résume ses principales contributions comme suit :

  1. Nous proposons une approche simple et efficace de réglage fin pour la génération d’images de diffusion nommée DiffFit.
  2. Nous effectuons une analyse théorique intuitive et concevons des études d’ablation détaillées pour mieux comprendre pourquoi cette simple stratégie de réglage fin efficace des paramètres peut s’adapter rapidement aux nouvelles distributions.
  3. Nous montrons qu’en traitant la génération d’images haute résolution comme une tâche en aval du modèle génératif pré-entraîné à basse résolution, DiffFit peut être étendu de manière transparente pour obtenir des résultats de génération supérieurs avec FID 3.02 sur ImageNet et réduire le temps de formation de 30 fois, démontrant ainsi son évolutivité. .
Image 58

DiffFit est construit sur des transformateurs de diffusion (DiT), une famille récemment introduite de modèles de diffusion basés sur des transformateurs avec une bonne évolutivité qui surpasse les modèles de diffusion traditionnels. DiffFit hérite de ces avantages tout en étant beaucoup plus efficace en termes de paramètres.

DiffFit diffère de DiT en ce qu’il gèle la plupart des paramètres du modèle de diffusion latente et forme uniquement les entrées de terme de biais, la normalisation et le module de condition de classe. L’équipe introduit également des facteurs d’échelle apprenables dans plusieurs blocs du modèle de diffusion, où ils initient le facteur d’échelle à 1,0 et le multiplient sur les couches correspondantes de chaque bloc. Les blocs ont plusieurs composants, y compris l’auto-attention multi-têtes, les réseaux à anticipation et la normalisation des couches.

Publicité
Image 59
Le Difffit De Huawei Libère La Transférabilité Des Modèles De Grande Diffusion Vers De Nouveaux Domaines 12

La combinaison de la stratégie figée et de la conception du modèle minimise les perturbations des poids pré-entraînés – car DiffFIt ne met à jour qu’une infime fraction (environ 0,12%) de ses paramètres – et accélère les temps d’apprentissage d’environ 2x par rapport à un réglage fin complet. De plus, en renforçant les connaissances acquises du modèle pré-entraîné, cette approche permet une adaptation plus rapide à des tâches spécifiques et évite les problèmes d’oubli catastrophiques.

Image 60
Le Difffit De Huawei Libère La Transférabilité Des Modèles De Grande Diffusion Vers De Nouveaux Domaines 13

Dans leur étude empirique, les chercheurs ont comparé DiffFit avec des méthodes de base (réglage fin complet, adaptation parallèle, BitFit LoRA-R8, etc.) sur des ensembles de données à grain fin Food101, SUN397, DF-20M mini, Caltech101, CUB-200- 2011, ArtBench-10, Oxford Flowers et Stanford Cars. Dans les expériences, DiffFit n’a réglé qu’environ 0,12 % des paramètres et a obtenu les meilleurs scores FID globaux.

Cette étude présente DiffFit, une stratégie simple et efficace sur les paramètres qui accélère considérablement le réglage fin du modèle sans sacrifier les performances. L’équipe espère que leur travail éclairera et encouragera des approches de réglage fin plus efficaces pour des modèles de diffusion plus larges.

Le papier DiffFit : déverrouiller la transférabilité des grands modèles de diffusion via un réglage fin simple et efficace des paramètres est sur arXiv.


Auteur: Hécate Il | Éditeur: Michel Sarazen


Image 122
Le Difffit De Huawei Libère La Transférabilité Des Modèles De Grande Diffusion Vers De Nouveaux Domaines 14

Nous savons que vous ne voulez manquer aucune actualité ou percée de la recherche. Abonnez-vous à notre populaire newsletter IA mondiale synchronisée hebdomadaire pour obtenir des mises à jour hebdomadaires de l’IA.

->Google Actualités

4.9/5 - (38 votes)
Publicité
Article précédentÀ l’intérieur de la guerre civile libanaise en 33 photos tragiques
Article suivantSuppression des packs d’autocollants Playground AR pour Google Camera

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici