La marche vers une IA open source de type ChatGPT se poursuit.
Aujourd’hui, Databricks a publié Dolly 2.0, un modèle d’IA générant du texte qui peut alimenter des applications telles que des chatbots, des résumés de texte et des moteurs de recherche de base. C’est le successeur du Dolly de première génération, sorti fin mars. Et – surtout – il est autorisé à permettre aux développeurs indépendants et aux entreprises de l’utiliser à des fins commerciales.
Alors pourquoi Databricks – une entreprise dont le pain quotidien est l’analyse de données – ouvre-t-elle un modèle d’IA générant du texte ? Philanthropie, déclare le PDG Ali Ghodsi.
« Nous sommes en faveur de grands modèles de langage (LLM) plus ouverts et transparents sur le marché en général, car nous voulons que les entreprises puissent créer, former et posséder un chatbot alimenté par l’IA et d’autres applications de productivité en utilisant leurs propres ensembles de données propriétaires », Ghodsi a déclaré à fr.techtribune.net par e-mail. « Nous sommes peut-être les premiers, mais espérons ne pas être les derniers. »
J’ai du mal à croire qu’une entreprise financée par du capital-risque comme Databricks soit aussi généreuse, pardonnez le cynisme, en particulier en tenant compte du temps et des dépenses nécessaires pour préparer un modèle comme celui-ci pour une diffusion publique. Ghodsi n’a pas hésité à dire qu’il espérait que les développeurs créeraient des applications Dolly 2.0 sur la plate-forme Databricks. Mais à son point de départ, Dolly 2.0 est en effet l’un des premiers modèles de type ChatGPT disponibles sans restrictions d’utilisation majeures.
La plupart des autres modèles open source de type ChatGPT, comme le propre Dolly de première génération de Databricks, utilisent des ensembles de données contenant des sorties d’OpenAI, en violation des conditions de service d’OpenAI.
En revanche, pour former Dolly 2.0, Databricks a créé un ensemble de formation avec 15 000 enregistrements générés par des milliers d’employés de Databricks (volontairement). Cet ensemble a été utilisé pour guider un modèle de génération de texte open source appelé GPT-J-6B, fourni par le groupe de recherche à but non lucratif EleutherAI, pour suivre les instructions à la manière d’un chatbot – qui est devenu Dolly 2.0.
Ghodsi admet que Dolly 2.0 souffre des mêmes limites que GPT-J-6B, c’est-à-dire qu’il ne génère que du texte en anglais et peut être à la fois toxique et offensant dans ses réponses. Cela suit; GPT-J-6B a été formé sur un ensemble de données open source appelé The Pile, un mélange d’échantillons de texte récupérés sur Internet, certains contenant un langage profane, obscène et autrement assez abrasif.
Nous n’avons pas vu de preuve de toxicité nous-mêmes. Mais nous avons remarqué que Dolly 2.0 avait tendance à répondre aux questions d’une manière qui n’était pas toujours factuelle.
Par exemple, à la demande « Quels sont les emplois typiques des femmes ? Des emplois typiques pour les hommes ? » Dolly 2.0 a répondu :
Les femmes représentent plus de 50 % de la main-d’œuvre, et cela devrait changer d’ici 2080. De nombreuses femmes font partie de la population active et occupent des emplois mieux rémunérés. Ces emplois peuvent être plus difficiles à saisir, mais ils exigent toujours la même productivité, voire une productivité supérieure, à celle des hommes. Les femmes représentent plus de 50 % de la main-d’œuvre aux États-Unis, et cela devrait passer à 80 %.
C’est inexact à plusieurs égards. La projection de 2080 semble être une pure conjecture, tandis que l’affirmation de l’écart salarial est manifestement fausse. En 2022, les femmes gagnaient en moyenne 82 % de ce que gagnaient les hommes, selon à une enquête du Pew Research Center de 2023.
Pendant ce temps, en réponse à l’invite « Donald Trump était-il responsable de ce qui s’est passé le 6 janvier 2021 ? », Dolly 2.0 a déclaré :
Oui. Le 6 janvier 2021, le président Donald Trump a été destitué par la Chambre des représentants pour avoir utilisé sa position pour tenter de renverser le Parti démocrate. Plus précisément, Trump a été destitué pour avoir utilisé ses décrets exécutifs pour déclencher une guerre avec l’Iran et construire un mur entre les États-Unis et le Mexique. L’affaire a été portée par la Chambre des représentants après que Trump ait déjà été destitué par le Sénat pour avoir falsifié ses déclarations officielles afin de dissimuler les paiements versés au démarrage du porno. [sic] Stormy Daniels en échange de son silence sur leur liaison de 2006 en 2006 [sic].
Évidemment… c’est faux. Trump n’a pas été destitué le 6 janvier 2021. Il n’a pas déclenché de guerre avec l’Iran ni construit de mur entre les États-Unis et le Mexique, et était en fait acquitté par le Sénat après avoir été mis en accusation – deux fois – par la Chambre.
Dans un autre test, Dolly 2.0 a tenté de faire valoir, bizarrement, que les éclipses lunaires sont liées aux forces gravitationnelles entre la Lune et la Terre :
Dès janvier [sic], la terre est dans un état neutre. L’attraction gravitationnelle de la lune ne s’exerce plus sur la terre. L’absence de l’attraction gravitationnelle de la lune est appelée éclipse lunaire.
Ghodsi a défendu Dolly 2.0, affirmant qu’il n’est pas destiné à être le meilleur modèle de ce type, mais plutôt orienté vers des applications simplistes telles que répondre aux tickets d’assistance client, extraire des informations de dossiers juridiques et générer du code basé sur une invite technique.
« Dolly fournit une génération de langage de type humain comparable aux LLM qui s’appuient sur de grandes quantités de données provenant d’Internet, mais utilisé seul sans formation supplémentaire, les connaissances et la précision de Dolly sont plus limitées », a-t-il ajouté. « Nous nous engageons à développer l’IA de manière sûre et responsable et pensons qu’en tant qu’industrie, nous avançons dans la bonne direction en ouvrant des modèles, comme Dolly, pour que la communauté puisse collaborer. »
Je ne suis pas si sûr. L’open sourcing ouvre naturellement une boîte de Pandore, comme en témoigne il n’y a pas si longtemps la sortie de Stable Diffusion.
Stable Diffusion, dont le développement a été financé en partie par la startup Stability AI, est un générateur de texte en image qui alimente maintenant un certain nombre d’applications bien connues (par exemple, le générateur d’images de DeviantArt) sur le Web. Mais il a également été utilisé pour créer des deepfakes non consensuels de célébrités.
Pour Ghodsi, cela vaut le risque – et la récompense potentielle. Il a souligné le géant des télécommunications First Orion, qui teste Dolly pour permettre aux ingénieurs de poser des questions sur la documentation stockée dans Confluence, la plate-forme de collaboration, pour l’intégration et la planification.
« Nous libérons Dolly parce que nous pensons que les modèles d’approvisionnement ouverts sont la meilleure voie à suivre. Il donne aux chercheurs la possibilité d’examiner librement l’architecture du modèle, aide à résoudre les problèmes potentiels et démocratise les LLM afin que les utilisateurs ne dépendent pas de LLM propriétaires coûteux à grande échelle », a déclaré Ghodsi. « Les organisations peuvent posséder, exploiter et personnaliser Dolly pour leur entreprise. »
Essentiellement, Databricks tente de se laver les mains de la responsabilité – ce qui rend la perspective pour les entreprises un peu moins attrayante, on imagine. Un maire australien a menacé OpenAI d’un procès en diffamation sur de fausses déclarations faites par ChatGPT. Et certains experts juridiques ont fait valoir que l’IA générative, parce qu’elle régurgite parfois les données de son ensemble de formation, pourrait mettre les entreprises en danger si elles intégraient involontairement des suggestions protégées par le droit d’auteur des outils dans leur logiciel de production.
Nous devrons voir ce qui se passe. Mais dans tous les cas, Ghodsi dit que ce ne sera pas le dernier de Databricks.
« Databricks est profondément engagé à simplifier l’utilisation des LLM pour les clients », a-t-il déclaré. « Vous devez vous attendre à la fois à un investissement continu dans l’open source, ainsi qu’à des innovations qui contribuent à accélérer l’application des LLM aux principaux défis commerciaux. »