Accueil Tech today Les modèles TTT pourraient être la prochaine frontière de l’IA générative

Les modèles TTT pourraient être la prochaine frontière de l’IA générative

Par

juillet 17, 2024

Après des années de domination par la forme de l’IA connue sous le nom de transformateur, la chasse aux nouvelles architectures est lancée.

Les Transformers sous-tendent le modèle de génération de vidéos Sora d’OpenAI, et ils sont au cœur des modèles de génération de texte comme Claude d’Anthropic, Gemini de google et GPT-4o. Mais ils commencent à se heurter à des obstacles techniques, en particulier des obstacles liés au calcul.

Les transformateurs ne sont pas particulièrement efficaces pour traiter et analyser de grandes quantités de données, du moins sur du matériel standard. Et cela conduit à des pentes abruptes et peut-être insoutenable l’augmentation de la demande d’énergie à mesure que les entreprises construisent et étendent leurs infrastructures pour répondre aux besoins des transformateurs.

Une architecture prometteuse proposée ce mois-ci est formation au temps d’essai (TTT), qui a été développé sur une période d’un an et demi par des chercheurs de Stanford, de l’UC San Diego, de l’UC Berkeley et de Meta. L’équipe de recherche affirme que les modèles TTT peuvent non seulement traiter beaucoup plus de données que les transformateurs, mais qu’ils peuvent le faire sans consommer autant de puissance de calcul.

Table des matières hide

1 L’état caché dans les transformateurs

2 Scepticisme autour des modèles TTT

L’état caché dans les transformateurs

Un composant fondamental des transformateurs est « l’état caché », qui est essentiellement une longue liste de données. Lorsqu’un transformateur traite quelque chose, il ajoute des entrées à l’état caché pour « se souvenir » de ce qu’il vient de traiter. Par exemple, si le modèle se fraye un chemin à travers un livre, les valeurs d’état cachées seront des choses comme des représentations de mots (ou de parties de mots).

« Si vous considérez un transformateur comme une entité intelligente, alors la table de recherche – son état caché – est le cerveau du transformateur », a déclaré Yu Sun, post-doctorant à Stanford et co-contributeur à la recherche TTT, à TechCrunch. « Ce cerveau spécialisé permet d’exploiter les capacités bien connues des transformateurs, comme l’apprentissage en contexte. »

L’état caché fait partie de ce qui rend les transformateurs si puissants. Mais cela les entrave aussi. Pour « dire » ne serait-ce qu’un seul mot sur un livre qu’un transformateur vient de lire, le modèle devrait parcourir toute sa table de correspondance – une tâche aussi exigeante en termes de calcul que la relecture du livre entier.

Sun et son équipe ont donc eu l’idée de remplacer l’état caché par un modèle d’apprentissage automatique – comme des poupées imbriquées d’IA, si vous voulez, un modèle dans un modèle.

C’est un peu technique, mais l’essentiel est que le modèle d’apprentissage automatique interne du modèle TTT, contrairement à la table de correspondance d’un transformateur, ne grandit pas au fur et à mesure qu’il traite des données supplémentaires. Au lieu de cela, il encode les données qu’il traite en variables représentatives appelées poids, ce qui rend les modèles TTT très performants. Quelle que soit la quantité de données traitées par un modèle TTT, la taille de son modèle interne ne changera pas.

Sun estime que les futurs modèles TTT pourraient traiter efficacement des milliards de données, des mots aux images, en passant par les enregistrements audio et les vidéos. C’est bien au-delà des capacités des modèles actuels.

« Notre système peut dire X mots sur un livre sans la complexité de calcul de relire le livre X fois », a déclaré Sun. « Les grands modèles vidéo basés sur des transformateurs, tels que Sora, ne peuvent traiter que 10 secondes de vidéo, car ils n’ont qu’un « cerveau » de table de correspondance. Notre objectif final est de développer un système capable de traiter une longue vidéo ressemblant à l’expérience visuelle d’une vie humaine.

Scepticisme autour des modèles TTT

Les modèles TTT finiront-ils par supplanter les transformateurs ? Ils le pourraient. Mais il est trop tôt pour le dire avec certitude.

Les modèles TTT ne sont pas un remplacement immédiat des transformateurs. Et les chercheurs n’ont développé que deux petits modèles pour l’étude, ce qui rend la méthode TTT difficile à comparer à l’heure actuelle à certaines des plus grandes implémentations de transformateurs.

« Je pense que c’est une innovation parfaitement intéressante, et si les données confirment les affirmations selon lesquelles elle permet des gains d’efficacité, alors c’est une excellente nouvelle, mais je ne pourrais pas vous dire si c’est mieux que les architectures existantes ou non », a déclaré Mike Cook, maître de conférences au département d’informatique du King’s College de Londres, qui n’a pas participé à la recherche TTT. « Un de mes anciens professeurs avait l’habitude de raconter une blague quand j’étais étudiant de premier cycle : comment résolvez-vous un problème en informatique ? Ajoutez une autre couche d’abstraction. L’ajout d’un réseau neuronal à l’intérieur d’un réseau neuronal me rappelle vraiment cela.

Quoi qu’il en soit, l’accélération du rythme de la recherche sur les alternatives aux transformateurs indique une reconnaissance croissante de la nécessité d’une percée.

Cette semaine, la start-up d’IA Mistral a publié un modèle, Codestral Mamba, basé sur une autre alternative au transformateur appelé modèles d’espace d’état (SSM). Les SSM, comme les modèles TTT, semblent être plus efficaces en termes de calcul que les transformateurs et peuvent scajusqu’à de plus grandes quantités de données.

AI21 Labs explore également les SSM. Il en va de même pour Cartesia, qui a été à l’origine de certains des premiers SSM et des homonymes de Codestral Mamba, Mamba et Mamba-2.

Si ces efforts réussissent, ils pourraient rendre l’IA générative encore plus accessible et répandue qu’elle ne l’est aujourd’hui, pour le meilleur ou pour le pire.

[ad_2]