L’une des techniques les plus utilisées pour rendre les modèles d’IA plus efficaces, la quantification, a des limites – et l’industrie pourrait s’en approcher rapidement.

Dans le contexte de l’IA, la quantification fait référence à la réduction du nombre de bits – les plus petites unités qu’un ordinateur peut traiter – nécessaires pour représenter l’information. Considérez cette analogie : lorsque quelqu’un vous demande l’heure, vous direz probablement « midi » – et non « oh douze cents, une seconde et quatre millisecondes ». C’est quantifier ; Les deux réponses sont correctes, mais l’une est légèrement plus précise. La précision dont vous avez réellement besoin dépend du contexte.

Les modèles d’IA se composent de plusieurs composants qui peuvent être quantifiés, en particulier les paramètres, les variables internes que les modèles utilisent pour faire des prédictions ou prendre des décisions. C’est pratique, étant donné que les modèles effectuent des millions de calculs lorsqu’ils sont exécutés. Les modèles quantifiés avec moins de bits représentant leurs paramètres sont moins exigeants en mathématiques, et donc en calcul. (Pour être clair, il s’agit d’un processus différent de la « distillation », qui est un élagage plus impliqué et sélectif des paramètres.)

Mais la quantification peut comporter plus de compromis qu’on ne le pensait auparavant.

Le modèle qui ne cesse de rétrécir

Selon un étudier D’après des chercheurs de Harvard, Stanford, MIT, Databricks et Carnegie Mellon, les modèles quantifiés fonctionnent moins bien si la version originale non quantifiée du modèle a été entraînée sur une longue période sur de nombreuses données. En d’autres termes, à un certain point, il peut être préférable de simplement entraîner un modèle plus petit plutôt que d’en cuisiner un grand.

Publicité

Cela pourrait être une mauvaise nouvelle pour les entreprises d’IA qui entraînent des modèles extrêmement volumineux (connus pour améliorer la qualité des réponses), puis les quantifient dans le but de les rendre moins coûteux à servir.

Les effets se manifestent déjà. Il y a quelques mois, Développeurs et Universitaires a indiqué que la quantification du modèle Llama 3 de Meta avait tendance à être « plus nocive » par rapport à d’autres modèles, potentiellement en raison de la façon dont il a été formé.

« À mon avis, le coût numéro un pour tout le monde dans l’IA est et continuera d’être l’inférence, et notre travail montre qu’un moyen important de le réduire ne fonctionnera pas éternellement », a déclaré Tanishq Kumar, étudiant en mathématiques à Harvard et premier auteur de l’article, à TechCrunch.

Contrairement à la croyance populaire, l’inférence de modèle d’IA – l’exécution d’un modèle, comme lorsque ChatGPT répond à une question – est souvent plus coûteuse dans l’ensemble que l’entraînement du modèle. Considérons, par exemple, que google ait dépensé un estimatif 191 millions de dollars pour former l’un de ses modèles phares Gemini – certainement une somme princière. Mais si l’entreprise utilisait un modèle pour générer seulement des réponses de 50 mots à la moitié de toutes les requêtes de recherche Google, elle dépenserait environ 6 milliards de dollars par an.

Les principaux laboratoires d’IA ont adopté des modèles d’entraînement sur des ensembles de données massifs en partant du principe que la « mise à l’échelle » (l’augmentation de la quantité de données et de calcul utilisée dans l’entraînement) conduira à une IA de plus en plus performante.

Par exemple, Meta a entraîné Llama 3 sur un ensemble de 15 trillions de jetons. (Les jetons représentent des bits de données brutes ; 1 million de jetons équivaut à environ 750 000 mots.) La génération précédente, Llama 2, a été entraînée avec « seulement » 2 trillions de jetons.

Les données suggèrent que l’expansion finit par produire des rendements décroissants ; Anthropic et Google supposément Des modèles énormes récemment entraînés qui n’ont pas répondu aux attentes des benchmarks internes. Mais il y a peu de signes que l’industrie soit prête à s’éloigner de manière significative de ces approches de mise à l’échelle bien ancrées.

Quelle précision, exactement ?

Donc, si les laboratoires sont réticents à entraîner des modèles sur des ensembles de données plus petits, y a-t-il un moyen de rendre les modèles moins susceptibles de se dégrader ? Peut-être. Kumar dit que lui et ses co-auteurs ont découvert que l’entraînement des modèles en « basse précision » peut les rendre plus robustes. Restez avec nous un instant pendant que nous plongeons un peu.

La « précision » fait ici référence au nombre de chiffres qu’un type de données numérique peut représenter avec précision. Les types de données sont des collections de valeurs de données, généralement spécifiées par un ensemble de valeurs possibles et d’opérations autorisées. le type de données FP8, par exemple, n’utilise que 8 bits pour représenter un nombre à virgule flottante.

Aujourd’hui, la plupart des modèles sont entraînés à une précision de 16 bits ou « demi-précision » et « quantifiés après l’entraînement » à une précision de 8 bits. Certains composants du modèle (par exemple, ses paramètres) sont convertis dans un format de précision inférieure au prix d’une certaine précision. C’est comme si vous faisiez le calcul à quelques décimales près, puis que vous arrondissiez au dixième le plus proche, ce qui vous donne souvent le meilleur des deux mondes.

Les fournisseurs de matériel comme Nvidia sont poussésng pour une précision inférieure pour l’inférence de modèle quantifié. La nouvelle puce Blackwell de la société prend en charge une précision de 4 bits, en particulier un type de données appelé FP4 ; Nvidia a présenté cela comme une aubaine pour les centres de données à mémoire et en énergie limitées.

Mais une précision de quantification extrêmement faible n’est peut-être pas souhaitable. Selon Kumar, à moins que le modèle original ne soit incroyablement grand en termes de nombre de paramètres, les précisions inférieures à 7 ou 8 bits peuvent voir une baisse notable de la qualité.

Si tout cela semble un peu technique, ne vous inquiétez pas, c’est le cas. Mais ce qu’il faut retenir, c’est tout simplement que les modèles d’IA ne sont pas entièrement compris, et que les raccourcis connus qui fonctionnent dans de nombreux types de calcul ne fonctionnent pas ici. Vous ne diriez pas « midi » si quelqu’un vous demandait quand ils ont commencé un sprint de 100 mètres, n’est-ce pas ? Ce n’est pas aussi évident que cela, bien sûr, mais l’idée est la même :

« Le point clé de notre travail est qu’il y a des limites que vous ne pouvez pas contourner naïvement », a conclu Kumar. « Nous espérons que notre travail ajoutera de la nuance à la discussion qui recherche souvent des valeurs par défaut de précision de plus en plus faibles pour l’entraînement et l’inférence. »

Kumar reconnaît que son étude et celle de ses collègues étaient à relativement petite échelle – ils prévoient de la tester avec d’autres modèles à l’avenir. Mais il pense qu’au moins une idée tiendra : il n’y a pas de repas gratuit lorsqu’il s’agit de réduire les coûts d’inférence.

« La précision du bit est importante, et ce n’est pas gratuit », a-t-il déclaré. « Vous ne pouvez pas le réduire indéfiniment sans que les modèles ne souffrent. Les modèles ont une capacité finie, donc plutôt que d’essayer de faire tenir un quadrillion de jetons dans un petit modèle, à mon avis, beaucoup plus d’efforts seront consacrés à la conservation et au filtrage méticuleux des données, de sorte que seules les données de la plus haute qualité soient placées dans des modèles plus petits. Je suis optimiste quant à l’importance à l’avenir des nouvelles architectures qui visent délibérément à stabiliser l’entraînement de faible précision.

5/5 - (449 votes)
Publicité
Article précédentLa meilleure technologie pour les amoureux des plantes
Article suivantLes e-mails de phishing utilisent de plus en plus de pièces jointes SVG pour échapper à la détection

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici