Les données sont au cœur des systèmes d’IA avancés d’aujourd’hui, mais elles coûtent de plus en plus cher, ce qui les rend hors de portée de toutes les entreprises technologiques, sauf les plus riches.
L’année dernière, James Betker, chercheur chez OpenAI, a écrit un poster sur son blog personnel sur la nature des modèles d’IA générative et les ensembles de données sur lesquels ils sont formés. Dans ce document, Betker a affirmé que les données d’entraînement – et non la conception, l’architecture ou toute autre caractéristique d’un modèle – étaient la clé de systèmes d’IA de plus en plus sophistiqués et performants.
« Entraînés sur le même ensemble de données pendant assez longtemps, à peu près tous les modèles convergent vers le même point », a écrit Betker.
Betker a-t-il raison ? Les données d’entraînement sont-elles le principal déterminant de ce qu’un modèle peut faire, qu’il s’agisse de répondre à une question, de dessiner des mains humaines ou de générer un paysage urbain réaliste ?
C’est certainement plausible.
Machines statistiques
Les systèmes d’IA générative sont essentiellement des modèles probabilistes – une énorme pile de statistiques. Ils devinent, sur la base d’un grand nombre d’exemples, quelles données ont le plus de « sens » pour placer où (par exemple, le mot « aller » avant « au marché » dans la phrase « Je vais au marché »). Il semble donc intuitif que plus un modèle doit faire de preuves, meilleures sont les performances des modèles entraînés sur ces exemples.
« Il semble que les gains de performance proviennent des données », a déclaré Kyle Lo, chercheur appliqué principal à l’Allen Institute for AI (AI2), une organisation à but non lucratif de recherche sur l’IA, à TechCrunch, « au moins une fois que vous avez une configuration d’entraînement stable ».
Lo a donné l’exemple de Llama 3 de Meta, un modèle générateur de texte publié plus tôt cette année, qui surpasse le modèle OLMo d’AI2 malgré sa grande similitude architecturale. Llama 3 a été entraîné sur beaucoup plus de données qu’OLMo, ce qui, selon Lo, explique sa supériorité sur de nombreux benchmarks d’IA populaires.
(Je soulignerai ici que les benchmarks largement utilisés dans l’industrie de l’IA aujourd’hui ne sont pas nécessairement le meilleur indicateur de la performance d’un modèle, mais en dehors des tests qualitatifs comme le nôtre, ils sont l’une des rares mesures que nous devons prendre.)
Cela ne veut pas dire que l’entraînement sur des ensembles de données exponentiellement plus grands est une voie infaillible vers des modèles exponentiellement meilleurs. Les modèles fonctionnent sur un paradigme « garbage in, garbage out », note Lo, et donc la conservation et la qualité des données comptent beaucoup, peut-être plus que la quantité.
« Il est possible qu’un petit modèle avec des données soigneusement conçues surpasse un grand modèle », a-t-il ajouté. « Par exemple, le Falcon 180B, un grand modèle, est classé 63e sur le benchmark LMSYS, tandis que le Llama 2 13B, un modèle beaucoup plus petit, est classé 56e. »
Dans une interview accordée à fr.techtribune.neten octobre dernier, le chercheur d’OpenAI, Gabriel Goh, a déclaré que des annotations de meilleure qualité contribuaient énormément à l’amélioration de la qualité d’image de DALL-E 3, le modèle texte-image d’OpenAI, par rapport à son prédécesseur DALL-E 2. « Je pense que c’est la principale source des améliorations », a-t-il déclaré. « Les annotations de texte sont bien meilleures qu’elles ne l’étaient [with DALL-E 2] – ce n’est même pas comparable.
De nombreux modèles d’IA, y compris DALL-E 3 et DALL-E 2, sont entraînés en demandant à des annotateurs humains d’étiqueter les données afin qu’un modèle puisse apprendre à associer ces étiquettes à d’autres caractéristiques observées de ces données. Par exemple, un modèle qui a nourri beaucoup d’images de chats avec des annotations pour chaque race finira par « apprendre » à associer des termes comme Bobtail et poil court avec leurs traits visuels distinctifs.
Mauvais comportement
Des experts comme Lo craignent que l’accent croissant mis sur les grands ensembles de données d’entraînement de haute qualité ne centralise le développement de l’IA entre les quelques acteurs disposant de budgets de plusieurs milliards de dollars qui peuvent se permettre d’acquérir ces ensembles. Innovation majeure dans le domaine google-and-meta-bet-on-fake-data-to-train-ai-models » target= »_blank » rel= »noreferrer noopener »>Données synthétiques ou l’architecture fondamentale pourrait perturber le statu quo, mais aucun ne semble être à l’horizon proche.
« Dans l’ensemble, les entités régissant le contenu potentiellement utile pour le développement de l’IA sont incitées à verrouiller leurs documents », a déclaré Lo. « Et à mesure que l’accès aux données se ferme, nous bénissons essentiellement quelques pionniers en matière d’acquisition de données et nous montons les échelons afin que personne d’autre ne puisse accéder aux données pour rattraper son retard. »
En effet, là où la course pour récupérer plus de données d’entraînement n’a pas conduit à des comportements contraires à l’éthique (et peut-être même illégaux) comme l’agrégation secrète de contenu protégé par le droit d’auteur, elle a récompensé les géants de la technologie avec des poches profondes à dépenser pour les licences de données.
Les modèles d’IA générative tels que celui d’OpenAI sont principalement entraînés sur des images, du texte, de l’audio, des vidéos et d’autres données – certaines protégées par le droit d’auteur – provenant de pages Web publiques (y compris, problématiqueceux générés par l’IA). Les OpenAI du cul du mondeQue l’usage loyal les protège des représailles légales. De nombreux titulaires de droits ne sont pas d’accord, mais, du moins pour l’instant, ils ne peuvent pas faire grand-chose pour empêcher cette pratique.
Il existe de très nombreux exemples de fournisseurs d’IA générative acquérant des ensembles de données massifs par des moyens douteux afin d’entraîner leurs modèles. OpenAI supposément a transcrit plus d’un million d’heures de vidéos youtube sans la bénédiction de YouTube – ou la bénédiction des créateurs – pour alimenter son modèle phare GPT-4. Google a récemment élargi ses conditions d’utilisation en partie pour pouvoir exploiter Google Docs public, les critiques de restaurants sur Google Maps et d’autres documents en ligne pour ses produits d’IA. Et Meta aurait envisagé de risquer des poursuites judiciaires pour Entraîner ses modèles sur le contenu protégé par la propriété intellectuelle.
Pendant ce temps, les entreprises, grandes et petites, comptent sur Les travailleurs des pays du tiers monde ne payaient que quelques dollars de l’heure pour créer des annotations pour les jeux d’apprentissage. Certains de ces annotateurs — employés par Startups gigantesques comme Scale AI – travaillent littéralement des jours pour accomplir des tâches qui les exposent à des représentations graphiques de violence et d’effusion de sang sans aucun avantage ni garantie de futurs concerts.
Coût croissant
En d’autres termes, même les accords de données les plus honnêtes ne favorisent pas exactement un écosystème d’IA générative ouvert et équitable.
OpenAI a dépensé des centaines de millions de dollars pour obtenir des licences de contenu auprès d’éditeurs de presse, de bibliothèques de médias et d’autres pour former ses modèles d’IA – un budget bien supérieur à celui de la plupart des groupes de recherche universitaires, des organisations à but non lucratif et des startups. Meta est allé jusqu’à envisager l’acquisition de l’éditeur Simon & Schuster pour les droits d’extraits de livres électroniques (en fin de compte, Simon & Schuster a été vendu à la société de capital-investissement KKR pour 1,62 milliard de dollars en 2023).
Le marché des données d’entraînement de l’IA devant grandir D’environ 2,5 milliards de dollars aujourd’hui à près de 30 milliards de dollars en une décennie, les courtiers en données et les plateformes se précipitent pour facturer le prix fort, dans certains cas malgré les objections de leurs bases d’utilisateurs.
Bibliothèque multimédia Shutterstock a Encré traite avec des fournisseurs d’IA allant de 25 à 50 millions de dollars, tandis que Reddit affirme avoir gagné des centaines de millions grâce à des licences de données à des organisations telles que Google et OpenAI. Peu de plateformes avec des données abondantes accumulées de manière organique au fil des ans N’ signé des accords avec des développeurs d’IA générative, semble-t-il – de Photobucket à Tumblr en passant par le site de questions-réponses Stack Overflow.
Ce sont les données des plateformes à vendre – du moins en fonction des arguments juridiques que vous croyez. Mais dans la plupart des cas, les utilisateurs ne voient pas un centime des bénéfices. Et cela nuit à la communauté de recherche en IA au sens large.
« Les petits acteurs ne pourront pas se permettre ces licences de données et ne pourront donc pas développer ou étudier des modèles d’IA », a déclaré Lo. « Je crains que cela ne conduise à un manque d’examen indépendant des pratiques de développement de l’IA. »
Efforts indépendants
S’il y a un rayon de soleil à travers l’obscurité, ce sont les quelques efforts indépendants et à but non lucratif pour créer des ensembles de données massifs que tout le monde peut utiliser pour former un modèle d’IA générative.
EleutherAI, un groupe de recherche à but non lucratif qui a commencé comme un collectif Discord en 2020, travaille avec l’Université de Toronto, AI2 et des chercheurs indépendants pour créer The Pile v2, un ensemble de milliards de passages de texte provenant principalement du domaine public.
En avril, la start-up d’IA Hugging Face a publié FineWeb, une version filtrée du Common Crawl – l’ensemble de données éponyme maintenu par l’organisation à but non lucratif Common Crawl, composé de milliards et de milliards de pages Web – qui, selon Hugging Face, améliore les performances du modèle sur de nombreux benchmarks.
Quelques efforts pour publier des ensembles de données d’entraînement ouverts, comme les ensembles d’images du groupe LAION, se sont heurtés au droit d’auteur, à la confidentialité des données et à d’autres Défis éthiques et juridiques tout aussi graves. Mais certains des curateurs de données les plus dévoués se sont engagés à faire mieux. The Pile v2, par exemple, supprime le matériel problématique protégé par le droit d’auteur trouvé dans son ensemble de données progéniteur, The Pile.
La question est de savoir si l’un de ces efforts ouverts peut espérer suivre le rythme des Big Tech. Tant que la collecte et la conservation des données restent une question de ressources, la réponse est probablement non, du moins pas jusqu’à ce qu’une percée de la recherche égalise les règles du jeu.