Deux jours après qu’une lettre ouverte a appelé à un moratoire sur le développement de modèles d’IA génératifs plus puissants afin que les régulateurs puissent rattraper ChatGPT, l’autorité italienne de protection des données vient de rappeler à point nommé que certains pays faire ont des lois qui s’appliquent déjà à l’IA de pointe : commandé OpenAI pour arrêter de traiter les données des personnes localement avec effet immédiat.
La DPA italienne s’est dite préoccupée par le fait que le fabricant de ChatGPT enfreint le règlement général sur la protection des données (RGPD) de l’Union européenne et ouvre une enquête.
Plus précisément, le Garantie a déclaré avoir émis l’ordre de bloquer ChatGPT en raison des préoccupations qu’OpenAI a traitées illégalement les données des personnes ainsi que de l’absence de tout système pour empêcher les mineurs d’accéder à la technologie.
La société basée à San Francisco dispose de 20 jours pour répondre à la commande, accompagnée de la menace de sanctions substantielles si elle ne se conforme pas. (Rappel : les amendes pour violation du régime de protection des données de l’UE peuvent atteindre 4 % du chiffre d’affaires annuel, ou 20 millions d’euros, selon le montant le plus élevé.)
Il convient de noter qu’OpenAI n’ayant pas d’entité juridique établie dans l’UE, toute autorité de protection des données est habilitée à intervenir, dans le cadre du RGPD, si elle constate des risques pour les utilisateurs locaux. (Ainsi, là où l’Italie intervient, d’autres peuvent suivre.)
Mise à jour: OpenAI a maintenant géobloqué ChatGPT en Italie – consultez notre rapport de suivi pour plus de détails.
Suite de problèmes RGPD
Le GDPR s’applique chaque fois que les données personnelles des utilisateurs de l’UE sont traitées. Et il est clair que le grand modèle de langage d’OpenAI a analysé ce type d’informations, car il peut, par exemple, produire à la demande des biographies d’individus nommés dans la région (nous le savons, nous l’avons essayé). Bien qu’OpenAI ait refusé de fournir des détails sur les données de formation utilisées pour la dernière itération de la technologie, GPT-4, il a révélé que les modèles précédents étaient formés sur des données extraites d’Internet, y compris des forums tels que Reddit. Donc, si vous avez été raisonnablement en ligne, il y a de fortes chances que le bot connaisse votre nom.
De plus, il a été démontré que ChatGPT produit des informations complètement fausses sur des personnes nommées, inventant apparemment des détails qui manquent à ses données de formation. Cela soulève potentiellement d’autres préoccupations concernant le RGPD, puisque le règlement offre aux Européens une série de droits sur leurs données, y compris le droit de rectifier les erreurs. Il n’est pas clair comment/si les gens peuvent demander à OpenAI de corriger les déclarations erronées à leur sujet générées par le bot, par exemple.
Le GarantieLa déclaration de met également en évidence une violation de données subie par le service au début du mois, lorsque OpenAI admis une fonctionnalité d’historique des conversations avait divulgué les chats des utilisateurs et a déclaré qu’elle pourrait avoir exposé les informations de paiement de certains utilisateurs.
Les violations de données sont un autre domaine que le RGPD réglemente en mettant l’accent sur la garantie que les entités qui traitent des données personnelles protègent adéquatement les informations. La législation paneuropéenne oblige également les entreprises à notifier aux autorités de contrôle compétentes les infractions importantes dans des délais serrés.
Au-dessus de tout cela, il y a la grande question de savoir sur quelle base juridique OpenAI s’est appuyée pour traiter les données des Européens en premier lieu. En d’autres termes, la licéité de ce traitement.
Le GDPR permet un certain nombre de possibilités – du consentement à l’intérêt public – mais l’ampleur du traitement pour former ces grands modèles linguistiques complique la question de la légalité. Comme le Garantie notes (pointant sur la « collecte et le stockage massifs de données personnelles »), la minimisation des données étant un autre grand objectif du règlement, qui contient également des principes qui exigent transparence et équité. Pourtant, au moins, la société (désormais) à but lucratif derrière ChatGPT ne semble pas avoir informé les personnes dont elle a réutilisé les données pour former ses IA commerciales. Cela pourrait être un problème assez collant pour lui.
Si OpenAI a traité illégalement les données des Européens, les DPA de tout le bloc pourraient ordonner la suppression des données, bien que cela obligerait l’entreprise à recycler des modèles formés sur des données obtenues illégalement est une question ouverte alors qu’une loi existante est aux prises avec une technologie de pointe.
D’un autre côté, l’Italie vient peut-être d’interdire tout apprentissage automatique par, euh, accident… 😬
« [T]Le garant de la confidentialité constate le manque d’information des utilisateurs et de toutes les parties intéressées dont les données sont collectées par OpenAI mais surtout l’absence de base légale justifiant la collecte et le stockage massifs de données personnelles, dans le but de « former » les algorithmes sous-jacents le fonctionnement de la plate-forme », a écrit la DPA dans sa déclaration d’aujourd’hui [which we’ve translated from Italian using AI].
« Comme en témoignent les vérifications effectuées, les informations fournies par ChatGPT ne correspondent pas toujours aux données réelles, déterminant ainsi un traitement inexact des données personnelles », a-t-il ajouté.
L’autorité a ajouté qu’elle était préoccupée par le risque que les données des mineurs soient traitées par OpenAI puisque l’entreprise n’empêche pas activement les personnes de moins de 13 ans de s’inscrire pour utiliser le chatbot, par exemple en appliquant la technologie de vérification de l’âge.
Les risques pour les données des enfants sont un domaine dans lequel le régulateur a été très actif, ordonnant récemment une interdiction similaire du chatbot d’amitié virtuelle AI, Replika, pour des raisons de sécurité des enfants. Ces dernières années, il a également poursuivi TikTok sur l’utilisation des mineurs, obligeant l’entreprise à purger plus d’un demi-million de comptes qu’elle n’a pas pu confirmer n’appartenait pas à des enfants.
Donc, si OpenAI ne peut pas confirmer définitivement l’âge des utilisateurs qu’il a inscrits en Italie, il pourrait, à tout le moins, être obligé de supprimer leurs comptes et de recommencer avec un processus d’inscription plus robuste.
OpenAI a été contacté pour une réponse à la Garantiel’ordre.
Lilian Edwards, experte en protection des données et en droit de l’Internet à l’Université de Newcastle, qui a été à l’avant-garde en menant des recherches sur les implications de « algorithmes qui se souviennent« , a déclaré fr.techtribune.net: » Ce qui est fascinant, c’est qu’il a plus ou moins copié-collé Replika en mettant l’accent sur l’accès des enfants à des contenus inappropriés. Mais la véritable bombe à retardement est le déni de base légale, qui devrait s’appliquer à TOUS ou au moins à de nombreux systèmes d’apprentissage automatique, pas seulement à l’IA générative.
Elle a souligné l’affaire cruciale du « droit à l’oubli » impliquant la recherche google, dans laquelle une contestation du traitement sans consentement de données à caractère personnel par un individu en Espagne a été contestée. Mais alors que les tribunaux européens ont établi un droit pour les individus de demander aux moteurs de recherche de supprimer des informations inexactes ou obsolètes à leur sujet (mis en balance avec un critère d’intérêt public), le traitement des données personnelles par Google dans ce contexte (recherche sur Internet) n’a pas été annulé par les régulateurs de l’UE. sur la légalité du point de traitement, apparemment au motif qu’il fournissait un service public. Mais aussi, in fine, parce que Google a fini par accorder des droits d’effacement et de rectification aux personnes concernées de l’UE.
« Les grands modèles de langage n’offrent pas ces remèdes et il n’est pas tout à fait clair qu’ils le feraient, pourraient ou quelles en seraient les conséquences », Edwards ajoutésuggérant que le recyclage forcé des modèles pourrait être une solution potentielle.
Ou bien, que des technologies comme ChatGPT peuvent simplement avoir enfreint la loi sur la protection des données…
Ce rapport a été mis à jour avec des commentaires supplémentaires. Nous avons également corrigé une faute d’orthographe dans le nom du régulateur.