Deux jours après une lettre ouverte appelant à un moratoire sur le développement de modèles d’IA générative plus puissants afin que les régulateurs puissent rattraper leur retard sur ChatGPT, l’autorité italienne de protection des données vient de rappeler à temps que certains pays faire Il existe des lois qui s’appliquent déjà à l’IA de pointe : elle a commandé OpenAI cessera de traiter les données des personnes localement avec effet immédiat.
La DPA italienne s’est déclarée préoccupée par le fait que le fabricant de ChatGPT enfreint le Règlement général sur la protection des données (RGPD) de l’Union européenne et a ouvert une enquête.
Plus précisément, le Garantie a déclaré avoir émis l’ordre de bloquer ChatGPT en raison des craintes qu’OpenAI ait traité illégalement les données des personnes ainsi que de l’absence de tout système pour empêcher les mineurs d’accéder à la technologie.
La société basée à San Francisco dispose de 20 jours pour répondre à l’ordre, assortis de la menace de lourdes sanctions si elle ne s’y conforme pas. (Rappel : les amendes en cas de violation du régime de protection des données de l’UE peuvent atteindre 4 % du chiffre d’affaires annuel, ou 20 millions d’euros, selon le montant le plus élevé.)
Il convient de noter que, étant donné qu’OpenAI n’a pas d’entité juridique établie dans l’UE, toute autorité de protection des données est habilitée à intervenir, en vertu du RGPD, si elle constate des risques pour les utilisateurs locaux. (Donc, là où l’Italie intervient, d’autres pourraient suivre.)
Mise à jour: OpenAI a désormais géobloqué ChatGPT en Italie – consultez notre rapport de suivi pour plus de détails.
Suite de problèmes liés au RGPD
Le RGPD s’applique à chaque fois que les données personnelles des utilisateurs de l’UE sont traitées. Et il est clair que le grand modèle de langage d’OpenAI traite ce type d’informations, puisqu’il peut, par exemple, produire à la demande des biographies d’individus nommés dans la région (nous le savons ; nous l’avons essayé). Bien qu’OpenAI ait refusé de fournir des détails sur les données de formation utilisées pour la dernière itération de la technologie, GPT-4, il a révélé que les modèles antérieurs avaient été formés à partir de données récupérées sur Internet, y compris sur des forums tels que Reddit. Donc, si vous avez été raisonnablement en ligne, il y a de fortes chances que le robot connaisse votre nom.
De plus, il a été démontré que ChatGPT produisait des informations complètement fausses sur des individus nommés, compensant apparemment les détails qui manquent à ses données de formation. Cela soulève potentiellement d’autres préoccupations liées au RGPD, puisque le règlement accorde aux Européens une série de droits sur leurs données, y compris le droit de rectification des erreurs. Il n’est pas clair comment/si les gens peuvent demander à OpenAI de corriger les déclarations erronées à leur sujet générées par le bot, par exemple.
Le GarantieLa déclaration de met également en évidence une violation de données dont le service a été victime plus tôt ce mois-ci, lorsque OpenAI admis une fonction d’historique des conversations avait divulgué les discussions des utilisateurs et a déclaré qu’elle aurait pu exposer les informations de paiement de certains utilisateurs.
Les violations de données sont un autre domaine réglementé par le RGPD en mettant l’accent sur la garantie que les entités qui traitent des données personnelles protègent correctement les informations. La loi paneuropéenne oblige également les entreprises à informer les autorités de contrôle compétentes de toute violation significative dans des délais serrés.
Au-delà de tout cela se pose la grande (plus) question de savoir sur quelle base juridique OpenAI s’est appuyée en premier lieu pour traiter les données des Européens. En d’autres termes, la licéité de ce traitement.
Le RGPD autorise un certain nombre de possibilités – du consentement à l’intérêt public – mais l’ampleur du traitement nécessaire à la formation de ces grands modèles de langage complique la question de la légalité. Comme le Garantie notes (soulignant la « collecte et le stockage massifs de données personnelles »), la minimisation des données étant un autre objectif majeur du règlement, qui contient également des principes exigeant transparence et équité. Pourtant, au moins, la société (désormais) à but lucratif derrière ChatGPT ne semble pas avoir informé les personnes dont elle a réutilisé les données pour former ses IA commerciales. Cela pourrait être un problème assez délicat.
Si OpenAI a traité illégalement les données des Européens, les DPA de tout le bloc pourraient ordonner la suppression des données, même si cela obligerait l’entreprise à recycler les modèles formés à partir de données obtenues illégalement est une question ouverte, car une loi existante est aux prises avec une technologie de pointe.
D’un autre côté, l’Italie vient peut-être d’interdire tout apprentissage automatique par, euh, accident… 😬
« [T]Le Garant de la confidentialité constate le manque d’information des utilisateurs et de toutes les parties intéressées dont les données sont collectées par OpenAI mais surtout l’absence de base juridique justifiant la collecte et le stockage massif de données personnelles, dans le but de « former » les algorithmes qui sous-tendent le fonctionnement de la plateforme », a écrit la DPA dans sa déclaration d’aujourd’hui. [which we’ve translated from Italian using AI].
« Comme en témoignent les contrôles effectués, les informations fournies par ChatGPT ne correspondent pas toujours aux données réelles, déterminant ainsi un traitement inexact des données personnelles », ajoute-t-il.
L’autorité a ajouté qu’elle était préoccupée par le risque que les données des mineurs soient traitées par OpenAI, car l’entreprise n’empêche pas activement les personnes de moins de 13 ans de s’inscrire pour utiliser le chatbot, par exemple en appliquant une technologie de vérification de l’âge.
Les risques pour les données des enfants sont un domaine dans lequel le régulateur a été très actif, ordonnant récemment une interdiction similaire sur le chatbot d’amitié virtuelle IA, Replika, pour des raisons de sécurité des enfants. Ces dernières années, il a également poursuivi TikTok pour utilisation par des mineurs, obligeant l’entreprise à supprimer plus d’un demi-million de comptes dont elle ne pouvait pas confirmer qu’ils n’appartenaient pas à des enfants.
Ainsi, si OpenAI ne peut pas confirmer définitivement l’âge des utilisateurs inscrits en Italie, il pourrait, à tout le moins, être contraint de supprimer leurs comptes et de recommencer avec un processus d’inscription plus robuste.
OpenAI a été contacté pour une réponse à la Garantiel’ordre.
Lilian Edwards, experte en protection des données et en droit de l’Internet à l’Université de Newcastle, a été en avance dans la conduite de recherches sur les implications de «des algorithmes qui se souviennent», a déclaré à fr.techtribune.net : « Ce qui est fascinant, c’est qu’il a plus ou moins copié Replika en mettant l’accent sur l’accès des enfants à des contenus inappropriés. Mais la véritable bombe à retardement est le déni de base légale, qui devrait s’appliquer à TOUS ou au moins à de nombreux systèmes d’apprentissage automatique, et pas seulement à l’IA générative.
Elle a évoqué l’affaire cruciale du « droit à l’oubli » impliquant la recherche google, dans laquelle le traitement sans consentement de données personnelles par un individu en Espagne a été contesté. Mais si les tribunaux européens ont reconnu le droit des individus de demander aux moteurs de recherche de supprimer des informations inexactes ou obsolètes les concernant (en fonction d’un critère d’intérêt public), le traitement des données personnelles par Google dans ce contexte (recherche sur Internet) n’a pas été invalidé par les régulateurs européens. sur la licéité du traitement, apparemment au motif qu’il répondait à un besoin d’utilité publique. Mais aussi, finalement, parce que Google a fini par accorder des droits d’effacement et de rectification aux personnes concernées de l’UE.
« Les grands modèles de langage n’offrent pas ces solutions et il n’est pas tout à fait clair qu’elles le feraient, pourraient le faire ou quelles en seraient les conséquences. » Edwards a ajoutéce qui suggère que le recyclage forcé des modèles pourrait être une solution potentielle.
Ou bien, que des technologies comme ChatGPT peuvent simplement avoir enfreint la loi sur la protection des données…
Ce rapport a été mis à jour avec des commentaires supplémentaires. Nous avons également corrigé une faute d’orthographe du nom du régulateur.