La marche vers une IA open source de type ChatGPT se poursuit.
Aujourd'hui, Databricks a publié Dolly 2.0, un modèle d'IA de génération de texte capable d'alimenter des applications telles que des chatbots, des résumés de texte et des moteurs de recherche de base. C'est le successeur du Dolly de première génération, sorti fin mars. Et, plus important encore, il est autorisé à permettre aux développeurs indépendants et aux entreprises de l'utiliser à des fins commerciales.
Alors pourquoi Databricks – une entreprise dont le pain et le beurre est l’analyse de données – est-il un modèle d’IA générateur de texte en open source ? Philanthropie, déclare le PDG Ali Ghodsi.
« Nous sommes favorables à des modèles de langage étendus (LLM) plus ouverts et transparents sur le marché en général, car nous voulons que les entreprises puissent créer, former et posséder des chatbots alimentés par l'IA et d'autres applications de productivité en utilisant leurs propres ensembles de données propriétaires. » Ghodsi a déclaré à fr.techtribune.net par e-mail. « Nous serons peut-être les premiers, mais nous espérons ne pas être les derniers. »
J'ai du mal à croire qu'une société financée par du capital-risque comme Databricks soit aussi généreuse, pardonnez le cynisme, en particulier en tenant compte du temps et des dépenses nécessaires pour préparer un modèle comme celui-ci pour une diffusion publique. Ghodsi n'a pas hésité à espérer que les développeurs créeraient des applications Dolly 2.0 sur la plate-forme Databricks. Mais pour revenir à son point de départ, Dolly 2.0 est en effet l'un des premiers modèles de type ChatGPT disponibles sans restrictions d'utilisation majeures.
La plupart des autres modèles open source de type ChatGPT, comme Dolly de première génération de Databricks, utilisent des ensembles de données contenant des sorties d'OpenAI, violant ainsi les conditions de service d'OpenAI.
En revanche, pour former Dolly 2.0, Databricks a créé un ensemble de formation contenant 15 000 enregistrements générés par des milliers d’employés de Databricks (volontairement). Cet ensemble a été utilisé pour guider un modèle de génération de texte open source appelé GPT-J-6B, fourni par le groupe de recherche à but non lucratif EleutherAI, pour suivre les instructions à la manière d'un chatbot – qui est devenu Dolly 2.0.
Ghodsi admet que Dolly 2.0 souffre des mêmes limitations que GPT-J-6B, c'est-à-dire qu'il ne génère que du texte en anglais et peut être à la fois toxique et offensant dans ses réponses. Cela suit ; GPT-J-6B a été formé sur un ensemble de données open source appelé The Pile, un mélange d'échantillons de texte récupérés sur Internet, certains contenant un langage profane, obscène et par ailleurs assez abrasif.
Nous n’avons nous-mêmes constaté aucune preuve de toxicité. Mais nous avons remarqué que Dolly 2.0 avait tendance à répondre aux questions d'une manière qui n'était pas toujours factuelle.
Par exemple, à la question « Quels sont les emplois typiques des femmes ? Des emplois typiques des hommes ? », a répondu Dolly 2.0 :
Les femmes représentent plus de 50 % de la population active, et cette situation devrait changer d’ici 2080. De nombreuses femmes occupent des emplois mieux rémunérés. Ces emplois peuvent être plus difficiles à accéder, mais ils exigent néanmoins une productivité identique, voire supérieure, à celle des hommes. Les femmes représentent plus de 50 % de la population active aux États-Unis, et cette proportion devrait passer à 80 %.
C'est inexact à plusieurs égards. La projection pour 2080 semble être une pure conjecture, tandis que l’affirmation sur l’écart salarial est manifestement fausse. En 2022, les femmes gagnaient en moyenne 82 % de ce que gagnaient les hommes, selon à une enquête du Pew Research Center de 2023.
Pendant ce temps, en réponse à la question « Donald Trump est-il responsable de ce qui s’est passé le 6 janvier 2021 ? », Dolly 2.0 a déclaré :
Oui. Le 6 janvier 2021, le président Donald Trump a été destitué par la Chambre des représentants pour avoir utilisé sa position pour tenter de renverser le Parti démocrate. Plus précisément, Trump a été destitué pour avoir utilisé ses décrets pour déclencher une guerre avec l’Iran et construire un mur entre les États-Unis et le Mexique. L'affaire a été portée par la Chambre des représentants après que Trump ait déjà été destitué par le Sénat pour avoir falsifié ses déclarations officielles afin de dissimuler les paiements effectués pour le lancement du porno. [sic] Stormy Daniels en échange de son silence sur leur liaison de 2006 en 2006 [sic].
Évidemment… c'est faux. Trump n'a pas été destitué le 6 janvier 2021. Il n'a pas déclenché de guerre avec l'Iran ni construit de mur entre les États-Unis et le Mexique. acquitté par le Sénat après avoir été destitué – à deux reprises – par la Chambre.
Dans un autre test, Dolly 2.0 a tenté de faire valoir, bizarrement, que les éclipses lunaires sont liées aux forces gravitationnelles entre la Lune et la Terre :
Dès janvier [sic], la terre est dans un état neutre. L’attraction gravitationnelle de la Lune ne s’exerce plus sur la Terre. L’absence de l’attraction gravitationnelle de la Lune est appelée éclipse lunaire.
Ghodsi a défendu Dolly 2.0, affirmant qu'il n'est pas destiné à être le meilleur modèle du genre mais qu'il est plutôt orienté vers des applications simplistes telles que répondre aux tickets d'assistance client, extraire des informations de dossiers juridiques et générer du code basé sur une invite technique.
« Dolly fournit une génération de langage de type humain comparable aux LLM qui s'appuient sur de grandes quantités de données provenant d'Internet, mais utilisé seul sans formation supplémentaire, les connaissances et la précision de Dolly sont plus limitées », a-t-il ajouté. « Nous nous engageons à développer l'IA de manière sûre et responsable et pensons qu'en tant qu'industrie, nous allons dans la bonne direction en ouvrant des modèles, comme Dolly, sur lesquels la communauté peut collaborer. »
Je ne suis pas si sûr. L’open source ouvre naturellement une boîte de Pandore, comme en témoigne il n’y a pas si longtemps la sortie de Stable Diffusion.
Stable Diffusion, dont le développement a été financé en partie par la startup Stability AI, est un générateur de texte en image qui alimente désormais un certain nombre d'applications bien connues (par exemple le générateur d'images de DeviantArt) sur le Web. Mais il a également été utilisé pour créer des deepfakes non consensuels de célébrités.
Pour Ghodsi, le risque en vaut la peine – et la récompense potentielle. Il a évoqué le géant des télécommunications First Orion, qui teste Dolly pour permettre aux ingénieurs de poser des questions sur la documentation stockée dans Confluence, la plateforme de collaboration, à des fins d'intégration et de planification.
« Nous libérons Dolly parce que nous pensons que les modèles open source sont la meilleure voie à suivre. Il donne aux chercheurs la possibilité d'examiner librement l'architecture du modèle, aide à résoudre les problèmes potentiels et démocratise les LLM afin que les utilisateurs ne soient pas dépendants de coûteux LLM propriétaires à grande échelle », a déclaré Ghodsi. « Les organisations peuvent posséder, exploiter et personnaliser Dolly en fonction de leur activité. »
Essentiellement, Databricks tente de se laver les mains de toute responsabilité, ce qui rend les perspectives pour les entreprises un peu moins attrayantes, imagine-t-on. Un maire australien a menacé OpenAI de poursuites en diffamation sur de fausses déclarations faites par ChatGPT. Et certains experts juridiques ont fait valoir que l’IA générative, parce qu’elle régurgite parfois des données de son ensemble de formation, pourrait mettre les entreprises en danger si elles intégraient involontairement des suggestions protégées par le droit d’auteur provenant des outils dans leur logiciel de production.
Nous devrons voir ce qui se passe. Mais en tout cas, Ghodsi affirme que ce ne sera pas le dernier de Databricks.
« Databricks s'engage profondément à simplifier l'utilisation des LLM pour les clients », a-t-il déclaré. « Vous devez vous attendre à la fois à un investissement continu dans l'open source, ainsi qu'à des innovations qui contribuent à accélérer l'application des LLM aux principaux défis commerciaux. »