Dans le contexte: Les grands modèles linguistiques dominent le cycle de l’actualité sans aucun signe de ralentissement. Tout le monde veut être au rez-de-chaussée de la technologie, il y a donc actuellement une ruée vers l’or pour sortir le prochain grand chatbot AI. Malheureusement, les modèles comme ChatGPT sont d’un coût prohibitif à construire et à former. Les modèles plus petits sont beaucoup moins chers mais semblent plus enclins à se transformer en un gâchis semblable au Tay de Microsoft à partir de 2016.
La semaine dernière, des chercheurs de l’Université de Stanford libéré leur version d’un chatbot basé sur l’IA LLaMa de Meta appelée « Alpaca » mais l’a rapidement mis hors ligne après avoir commencé à avoir des « hallucinations ». Certains dans l’industrie des grands modèles de langage (LLM) ont décidé que l’hallucination est un bon euphémisme lorsqu’une IA émet de fausses informations comme si elles étaient factuelles. L’université a ajouté que l’augmentation des coûts d’hébergement et les préoccupations en matière de sécurité étaient également facteurs dans son retrait.
« L’objectif initial de la publication d’une démo était de diffuser nos recherches de manière accessible », a déclaré à The Register un porte-parole de l’Institut d’intelligence artificielle centrée sur l’homme de l’Université de Stanford. « Nous estimons que nous avons en grande partie atteint cet objectif, et compte tenu des coûts d’hébergement et des insuffisances de nos filtres de contenu, nous avons décidé de faire tomber la démo. »
« Étant donné… les insuffisances de nos filtres de contenu… » est le code pour « Internet a ruiné notre modèle », ce qui n’est pas surprenant puisqu’Internet ruine tout.
Bien sûr, les LLM sont sujets à des réflexions fantaisistes, les présentant d’une manière tout à fait crédible. Les chercheurs ont souligné cette faiblesse dans pratiquement tous les chatbots récents sortis dans la nature. Il existe de nombreux exemples de ChatGPT et d’autres présentant de fausses informations comme factuelles et argumentant à plusieurs reprises leur histoire lorsqu’ils sont appelés à ce sujet.
De plus, Stanford savait qu’Alpaca avait généré des réponses inappropriées lors du lancement de la démo interactive.
« L’alpaga présente également plusieurs déficiences courantes des modèles de langage, notamment l’hallucination, la toxicité et les stéréotypes », ont déclaré les chercheurs dans leur communiqué de presse la semaine dernière. « L’hallucination, en particulier, semble être un mode d’échec courant pour Alpaca, même par rapport à text-davinci-003 (OpenAI’s GPT-3.5). Le déploiement d’une démo interactive pour Alpaca présente également des risques potentiels, tels que la diffusion plus large de contenu préjudiciable et abaissant la barrière contre le spam, la fraude ou la désinformation. »
Malgré la page web l’hébergement de la démo Alpaca étant en panne, les utilisateurs peuvent toujours récupérer le modèle à partir de son Dépôt GitHub pour l’expérimentation privée, ce que Stanford encourage. Il a demandé aux utilisateurs de « signaler » les défaillances non répertoriées dans son communiqué de presse lors de la publication initiale du modèle.
L’un des problèmes avec Alpaca est qu’il s’agit d’un modèle relativement petit pour les LLM, mais c’est par conception. Meta a intentionnellement créé LLaMA en tant que modèle de langage accessible qui ne nécessiterait pas un superordinateur coûteux pour s’entraîner. Stanford l’a utilisé pour développer un modèle de sept milliards de paramètres pour environ 600 $. Comparez cela aux 3 milliards de dollars (ou plus) que Microsoft investi dans son modèle basé sur ChatGPT avec des centaines de milliards de paramètres.
Dans cette optique, il n’est pas surprenant qu’Alpaca ait échoué si rapidement lors de sa diffusion au public. Même ChatGPT et Bing Chat ont eu de nombreux problèmes, faux paset des controverses lors de leurs débuts, et c’était après des bêtas fermées raisonnablement longues.
Cependant, cela ne signifie pas que l’alpaga ne sera jamais adapté à la consommation publique. Le code GitHub n’est sorti que depuis une semaine, et les gens l’ont implémenté sur un Tarte aux framboises et Téléphones Pixel. Ces exploits ne sont possibles qu’en raison de la taille légère d’Alpaca. Le principal obstacle sera de faire en sorte qu’un si petit modèle se comporte, ce que Stanford étudie depuis plus de trois ans (vidéo ci-dessus). C’est un domaine où même les LLM massifs comme ChatGPT ont besoin de travail.