Les modèles d’IA générative ne traitent pas le texte de la même manière que les humains. Comprendre leurs environnements internes basés sur des « jetons » peut aider à expliquer certains de leurs comportements étranges – et de leurs limites tenaces.

La plupart des modèles, qu’il s’agisse de petits modèles sur l’appareil comme Gemma ou du GPT-4o d’OpenAI, sont construits sur une architecture connue sous le nom de transformateur. En raison de la façon dont les transformateurs évoquent des associations entre le texte et d’autres types de données, ils ne peuvent pas prendre ou sortir du texte brut, du moins pas sans une énorme quantité de calcul.

Ainsi, pour des raisons à la fois pragmatiques et techniques, les modèles de transformateurs d’aujourd’hui fonctionnent avec du texte qui a été décomposé en petits morceaux appelés jetons – un processus connu sous le nom de tokenisation.

Les jetons peuvent être des mots, comme « fantastique ». Ou il peut s’agir de syllabes, comme « fan », « tas » et « tic ». Selon le tokenizer (le modèle qui effectue la tokenisation), il peut même s’agir de caractères individuels dans des mots (par exemple, « f », « a », « n », « t », « a », « s », « t », « i », « c »).

En utilisant cette méthode, les transformateurs peuvent prendre plus d’informations (au sens sémantique) avant d’atteindre une limite supérieure connue sous le nom de fenêtre de contexte. Mais la tokenisation peut également introduire des biais.

Publicité

Certains jetons ont un espacement impair, ce qui peut dérailler un transformateur. Un générateur de jetons peut coder « il était une fois » comme « une fois », « sur », « a », « temps », par exemple, tout en encodant « il était une fois » (qui a un espace à la fin) comme « une fois », « sur », « a », « ». Selon la façon dont un modèle est invité – avec « il était une fois » ou « il était une fois », les résultats peuvent être complètement différents, parce que le modèle ne comprend pas (comme une personne le ferait) que le sens est le même.

Les tokenizers traitent également les cas différemment. « Hello » n’est pas nécessairement la même chose que « HELLO » pour un modèle ; « hello » est généralement un token (selon le tokenizer), tandis que « HELLO » peut en avoir jusqu’à trois (« HE », « El » et « O »). C’est pourquoi de nombreux transformateurs échouent Test de la majuscule.

« Il est un peu difficile de contourner la question de ce qu’un « mot » devrait être exactement pour un modèle de langage, et même si nous parvenions à ce que les experts humains se mettent d’accord sur un vocabulaire symbolique parfait, les modèles trouveraient probablement toujours utile de « morceler » les choses encore plus loin », Sheridan Feucht, doctorant étudiant l’interprétabilité des grands modèles de langage à l’Université Northeastern. a déclaré à TechCrunch. « Je suppose qu’il n’existe pas de tokenizer parfait en raison de ce genre de flou. »

Ce « flou » crée encore plus de problèmes dans les langues autres que l’anglais.

De nombreuses méthodes de tokenisation supposent qu’un espace dans une phrase désigne un nouveau mot. C’est parce qu’ils ont été conçus en pensant à l’anglais. Mais toutes les langues n’utilisent pas d’espaces pour séparer les mots. Ce n’est pas le cas des Chinois et des Japonais, ni des Coréens, des Thaïlandais ou des Khmers.

A 2023 Oxford étudier a constaté qu’en raison des différences dans la façon dont les langues autres que l’anglais sont tokenisées, il peut falloir deux fois plus de temps à un transformateur pour accomplir une tâche formulée dans une langue autre que l’anglais par rapport à la même tâche formulée en anglais. La même étude — et autre – a révélé que les utilisateurs de langages moins « efficaces en tokens » sont susceptibles de voir les performances du modèle moins bonnes mais de payer plus cher pour l’utilisation, étant donné que de nombreux fournisseurs d’IA facturent par token.

Les tokenizers traitent souvent chaque caractère dans les systèmes logographiques d’écriture – des systèmes dans lesquels les symboles imprimés représentent des mots sans rapport avec la prononciation, comme le chinois – comme un jeton distinct, ce qui conduit à un nombre élevé de jetons. De même, les tokenizers qui traitent les langues agglutinantes – des langues où les mots sont constitués de petits éléments de mots significatifs appelés morphèmes, comme le turc – ont tendance à transformer chaque morphème en un jeton, augmentant ainsi le nombre global de jetons. (Le mot équivalent pour « bonjour » en thaïlandais, สวัสดี, est six jetons.)

En 2023, Yennie Jun, chercheuse en IA chez google DeepMind Menée Une analyse comparant la tokenisation de différentes langues et ses effets en aval. À l’aide d’un ensemble de données de textes parallèles traduits en 52 langues, Jun a montré que certaines langues avaient besoin de jusqu’à 10 fois plus de jetons pour capturer le même sens en anglais.

Au-delà des inégalités linguistiques, la tokenisation pourrait expliquer pourquoi les modèles actuels sont médiocres en matière de mathématiques.

Les chiffres sont rarement tokenisés de manière cohérente. Parce qu’ils ne savent pas vraiment ce que sont les nombres, les tokenizers peuvent traiter « 380 » comme un seul jeton, mais représenter « 381 » comme une paire (« 38 » et « 1 ») – en fait détruire les relations entre les chiffres et aboutit à des équations et des formules. Le résultat est une confusion de transformateur ; une récente papier a montré que les modèles ont du mal à Comprendre les modèles numériques répétitifs et le contexte, en particulier les données temporelles. (Voir : GPT-4 Pense 7 735 est supérieur à 7 926).

C’est aussi la raison pour laquelle les modèles ne sont pas doués pour résoudre les problèmes d’anagrammes ou Inverser les mots.

Ainsi, la tokenisation présente clairement des défis pour l’IA générative. Peuvent-ils être résolus ?

Peut-être.

Feucht pointe vers des modèles d’espace d’état « au niveau de l’octet » comme MambaÉcaille, qui peut ingérer beaucoup plus de données que les transformateurs sans pénaliser les performances en supprimant complètement la tokenisation. MambaByte, qui fonctionne directement avec des octets bruts représentant du texte et d’autres données, est compétitif avec certains modèles de transformateurs sur les tâches d’analyse de langage tout en gérant mieux le « bruit » comme les mots avec des caractères échangés, des espacements et des caractères majuscules.

Cependant, des modèles comme MambaByte en sont aux premiers stades de la recherche.

« Il est probablement préférable de laisser les modèles regarder directement les caractères sans imposer la tokenisation, mais pour l’instant, c’est tout simplement infaisable pour les transformateurs », a déclaré Feucht. « Pour les modèles de transformateurs en particulier, le calcul s’échelonne quadratiquement avec la longueur de la séquence, et nous voulons donc vraiment utiliser des représentations de texte courtes. »

À moins d’une percée dans la tokenisation, il semble que de nouvelles architectures de modèles seront la clé.

5/5 - (155 votes)
Publicité
Article précédentLa Terrasse du Café et ses Déesses sort sa vidéo de fin
Article suivantSans deux petites choses, God of War 2018 aurait commencé et se serait terminé avec le premier combat contre Baldur

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici