À mesure que les entreprises passent de l’essai de l’IA générative dans des prototypes limités à leur mise en production, elles deviennent de plus en plus conscientes des prix. L’utilisation de grands modèles de langage n’est pas bon marché, après tout. Une façon de réduire les coûts est de revenir à un vieux concept : la mise en cache. Une autre consiste à acheminer des requêtes plus simples vers des modèles plus petits et plus rentables. Lors de sa conférence re :invent à Las Vegas, AWS a annoncé aujourd’hui ces deux fonctionnalités pour son service d’hébergement Bedrock LLM.
Parlons d’abord du service de mise en cache. « Supposons qu’il y ait un document et que plusieurs personnes posent des questions sur le même document. À chaque fois, vous payez », m’a dit Atul Deo, le directeur des produits chez Bedrock. « Et ces fenêtres contextuelles sont de plus en plus longues. Par exemple, avec Nova, nous allons avoir 300k [tokens of] contexte et 2 millions [tokens of] contexte. Je pense que d’ici l’année prochaine, il pourrait même aller beaucoup plus haut.
La mise en cache garantit essentiellement que vous n’avez pas à payer pour que le modèle effectue un travail répétitif et retraite les mêmes requêtes (ou sensiblement similaires) encore et encore. Selon AWS, cela peut réduire les coûts jusqu’à 90 %, mais un sous-produit supplémentaire est également que la latence pour obtenir une réponse du modèle est nettement plus faible (AWS indique jusqu’à 85 %). Adobe, qui a testé la mise en cache rapide pour certaines de ses applications d’IA générative sur Bedrock, a constaté une réduction de 72 % du temps de réponse.
L’autre nouveauté majeure est le routage intelligent pour Bedrock. Grâce à cela, Bedrock peut acheminer automatiquement les invites vers différents modèles de la même famille de modèles pour aider les entreprises à trouver le bon équilibre entre performances et coûts. Le système prédit automatiquement (à l’aide d’un petit modèle de langage) les performances de chaque modèle pour une requête donnée, puis achemine la requête en conséquence.
« Parfois, ma question peut être très simple. Ai-je vraiment besoin d’envoyer cette requête au modèle le plus performant, qui est extrêmement coûteux et lent ? Probablement pas. Donc, en gros, vous voulez créer cette notion de « Hé, au moment de l’exécution, en fonction de l’invite entrante, envoyez la bonne requête au bon modèle » », a expliqué Deo.
Le routage LLM n’est pas un concept nouveau, bien sûr. Les startups aiment Martien et un certain nombre de projets open source s’y attaquent également, mais AWS dirait probablement que ce qui différencie son offre, c’est que le routeur peut diriger intelligemment les requêtes sans beaucoup d’intervention humaine. Mais il est également limité, dans la mesure où il ne peut acheminer les requêtes que vers les modèles de la même famille de modèles. À long terme, cependant, m’a dit Deo, l’équipe prévoit d’étendre ce système et de donner aux utilisateurs plus de personnalisation.
Enfin, AWS lance également une nouvelle place de marché pour Bedrock. L’idée ici, a déclaré Deo, est que bien qu’Amazon s’associe à de nombreux fournisseurs de modèles plus importants, il existe maintenant des centaines de modèles spécialisés qui n’ont peut-être que quelques utilisateurs dédiés. Étant donné que ces clients demandent à l’entreprise de les prendre en charge, AWS lance une place de marché pour ces modèles, où la seule différence majeure est que les utilisateurs devront provisionner et gérer eux-mêmes la capacité de leur infrastructure, ce que Bedrock gère généralement automatiquement. Au total, AWS proposera environ 100 de ces modèles émergents et spécialisés, et d’autres sont à venir.