Accueil Tech today La violation d’OpenAI rappelle que les entreprises d’IA sont des trésors pour...

La violation d’OpenAI rappelle que les entreprises d’IA sont des trésors pour les pirates informatiques

Par

juillet 5, 2024

Il n’y a pas lieu de s’inquiéter que vos conversations secrètes ChatGPT aient été obtenues lors d’une violation récemment signalée des systèmes d’OpenAI. Le piratage lui-même, bien que troublant, semble avoir été superficiel – mais il nous rappelle que les entreprises d’IA sont devenues en peu de temps l’une des cibles les plus juteuses pour les pirates.

Le New York Times a signalé le piratage plus en détail après que l’ancien employé d’OpenAI, Leopold Aschenbrenner, a y a fait allusion récemment dans un podcast. Il l’a qualifié d’«incident de Sécurité majeur », mais des sources anonymes de l’entreprise ont déclaré au Times que le pirate n’avait eu accès qu’à un forum de discussion d’employés. (J’ai contacté OpenAI pour confirmation et commentaire.)

Aucune faille de sécurité ne doit vraiment être considérée comme anodine, et l’écoute des discussions internes sur le développement d’OpenAI a certainement sa valeur. Mais il est loin qu’un pirate informatique ait accès aux systèmes internes, aux modèles en cours, aux feuilles de route secrètes, etc.

Mais cela devrait quand même nous effrayer, et pas nécessairement à cause de la menace de la Chine ou d’autres adversaires qui nous dépassent dans la course aux armements de l’IA. Le fait est que ces entreprises d’IA sont devenues les gardiennes d’une énorme quantité de données très précieuses.

Parlons de trois types de données qu’OpenAI et, dans une moindre mesure, d’autres entreprises d’IA ont créées ou auxquelles elles ont accès : des données d’entraînement de haute qualité, des interactions en masse avec les utilisateurs et des données clients.

On ne sait pas exactement quelles données d’entraînement ils possèdent, car les entreprises sont incroyablement secrètes sur leurs réserves. Mais c’est une erreur de penser qu’il ne s’agit que de gros tas de données Web récupérées. Oui, ils utilisent des grattoirs Web ou des ensembles de données comme le Pile, mais c’est une tâche gargantuesque de transformer ces données brutes en quelque chose qui peut être utilisé pour entraîner un modèle comme GPT-4o. Pour ce faire, il faut énormément d’heures de travail humain – il ne peut être que partiellement automatisé.

Certains ingénieurs en apprentissage automatique ont émis l’hypothèse que de tous les facteurs entrant dans la création d’un grand modèle de langage (ou, peut-être, de tout système basé sur un transformateur), le plus important est la qualité de l’ensemble de données. C’est pourquoi un modèle formé sur Twitter et Reddit ne sera jamais aussi éloquent qu’un modèle formé sur tous les travaux publiés du siècle dernier. (Et probablement pourquoi OpenAI supposément ont utilisé des sources juridiques douteuses comme des livres protégés par le droit d’auteur dans leurs données d’entraînement, une pratique qu’ils prétendent avoir abandonnée.)

Ainsi, les ensembles de données d’entraînement qu’OpenAI a construits sont d’une valeur considérable pour les concurrents, qu’il s’agisse d’autres entreprises, d’États adversaires ou de régulateurs ici aux États-Unis. La FTC ou les tribunaux n’aimeraient-ils pas savoir exactement quelles données ont été utilisées, et si OpenAI a été honnête à ce sujet ?

Mais ce qui est peut-être encore plus précieux, c’est l’énorme mine de données utilisateur d’OpenAI – probablement des milliards de conversations avec ChatGPT sur des centaines de milliers de sujets. Tout comme les données de recherche étaient autrefois la clé pour comprendre la psyché collective du Web, ChatGPT prend le pouls d’une population qui n’est peut-être pas aussi large que l’univers des utilisateurs de google, mais qui offre beaucoup plus de profondeur. (Au cas où vous ne le sauriez pas, à moins que vous ne vous désinscriviez, vos conversations sont utilisées pour les données d’entraînement.)

Dans le cas de Google, une augmentation des recherches pour « climatiseurs » vous indique que le marché se réchauffe un peu. Mais ces utilisateurs n’ont pas toute une conversation sur ce qu’ils veulent, combien d’argent ils sont prêts à dépenser, à quoi ressemble leur maison, les fabricants qu’ils veulent éviter, etc. Vous savez que c’est précieux parce que Google essaie lui-même de convertir ses utilisateurs pour qu’ils fournissent ces mêmes informations en substituant les interactions de l’IA aux recherches !

Pensez au nombre de conversations que les gens ont eues avec ChatGPT, et à l’utilité de ces informations, non seulement pour les développeurs d’IA, mais aussi pour les équipes marketing, les consultants, les analystes… C’est une mine d’or.

La dernière catégorie de données est peut-être la plus précieuse sur le marché libre : la façon dont les clients utilisent réellement l’IA et les données qu’ils ont eux-mêmes fournies aux modèles.

Des centaines de grandes entreprises et d’innombrables petites entreprises utilisent des outils tels qu’OpenAI et les API d’Anthropic pour une variété tout aussi grande de tâches. Et pour qu’un modèle de langage leur soit utile, il doit généralement être affiné ou avoir accès à leurs propres bases de données internes.

Il peut s’agir de quelque chose d’aussi prosaïque que de vieilles feuilles de budget ou de dossiers du personnel (pour les rendre plus facilement consultables, par exemple) ou d’aussi précieux que le code d’un logiciel non publié. Ce qu’ils font des capacités de l’IA (et si elles sont réellement utiles) est leur affaire, mais le fait est que le fournisseur d’IA dispose d’un accès privilégié, comme tout autre produit SaaSes.

Ce sont des secrets industriels, et les entreprises d’IA se retrouvent soudainement au cœur d’un grand nombre d’entre eux. La nouveauté de cet aspect de l’industrie comporte un risque particulier dans la mesure où les processus d’IA ne sont tout simplement pas encore normalisés ou entièrement compris.

Comme tout fournisseur SaaS, les entreprises d’IA sont parfaitement capables de fournir des niveaux standard de sécurité, de confidentialité, d’options sur site et, d’une manière générale, de fournir leur service de manière responsable. Je n’ai aucun doute que les bases de données privées et les appels API des clients du Fortune 500 d’OpenAI sont très étroitement verrouillés ! Ils doivent certainement être aussi conscients, voire plus, des risques inhérents au traitement de données confidentielles dans le cadre de l’IA. (Le fait qu’OpenAI n’ait pas signalé cette attaque est leur choix, mais cela n’inspire pas confiance pour une entreprise qui en a désespérément besoin.)

Mais les bonnes pratiques de sécurité ne changent rien à la valeur de ce qu’elles sont censées protéger, ni au fait que des acteurs malveillants et divers adversaires se bousculent à la porte pour entrer. La sécurité ne consiste pas seulement à choisir les bons paramètres ou à maintenir votre logiciel à jour, même si, bien sûr, les bases sont également importantes. Il s’agit d’un jeu du chat et de la souris sans fin qui, ironiquement, est maintenant suralimenté par l’IA elle-même : des agents et des automates d’attaque sondent tous les coins et recoins des surfaces d’attaque de ces entreprises.

Il n’y a aucune raison de paniquer : les entreprises ayant accès à de nombreuses données personnelles ou commerciales précieuses sont confrontées et gèrent des risques similaires depuis des années. Mais les entreprises d’IA représentent une cible plus nouvelle, plus jeune et potentiellement plus juteuse que votre serveur d’entreprise mal configuré ou votre courtier en données irresponsable. Même un piratage comme celui rapporté ci-dessus, sans exfiltration sérieuse à notre connaissance, devrait inquiéter quiconque fait affaire avec des entreprises d’IA. Ils ont peint les cibles sur leur dos. Ne soyez pas surpris si quelqu’un, ou tout le monde, prend une photo.