Accueil Linux Permettre une collaboration plus facile sur les données ouvertes pour l’IA et...

Permettre une collaboration plus facile sur les données ouvertes pour l’IA et le ML avec CDLA-Permissive-2.0

Par

juin 23, 2021

La Linux Foundation est heureuse d’annoncer la sortie du CDLA-Permissif-2.0 contrat de licence, qui est désormais disponible sur le site Web de la CDLA à l’adresse https://cdla.dev/permissive-2-0/. Nous pensons que CDLA-Permissive-2.0 répondra à un réel besoin d’un accord de licence court, simple et largement permissif pour permettre un partage et une utilisation plus larges des données ouvertes, en particulier pour clarifier l’utilisation des données ouvertes pour l’intelligence artificielle et l’apprentissage automatique. des modèles.

Nous sommes heureux d’annoncer qu’IBM et Microsoft mettent à disposition dès aujourd’hui des ensembles de données à l’aide de CDLA-Permissive-2.0.

Dans cet article de blog, nous partagerons quelques informations sur les versions originales de l’accord de licence de données communautaires (CDLA), pourquoi nous avons travaillé avec la communauté pour développer le nouvel accord CDLA-Permissive-2.0, et pourquoi nous pensons qu’il profitera aux producteurs , utilisateurs et redistributeurs d’ensembles de données ouvertes.

Table des matières hide

1 Contexte : Pourquoi auriez-vous besoin d’un accord de licence de données ouvertes ?

2 Premiers pas : CDLA version 1.0

3 Passer à la version 2.0 : simplifier, clarifier et rendre plus facile

4 Voix de la communauté

5 Ensembles de données disponibles sous CDLA-Permissive-2.0

6 Prochaines étapes et ressources

Contexte : Pourquoi auriez-vous besoin d’un accord de licence de données ouvertes ?

Licences et accords de licence sont des documents juridiques qui définissent comment le contenu peut être utilisé, modifié et partagé. Ils opèrent dans les cadres juridiques des droits d’auteur, des brevets et d’autres droits établis par les lois et réglementations du monde entier. Ces lois et règlements ne sont pas toujours clairs et ne sont pas toujours en phase les uns avec les autres.

Des décennies de pratique ont établi une collection de licences de logiciels open source et de licences de contenu ouvert qui sont largement utilisées. Ces licences fonctionnent généralement dans les cadres établis par les lois et réglementations mentionnées ci-dessus pour permettre une large utilisation, modification et partage de logiciels et d’autres contenus protégés par le droit d’auteur en échange du respect des exigences de licence.

Les données ouvertes sont différentes. Diverses lois et réglementations traitent les données différemment des logiciels ou d’autres contenus créatifs. Selon la nature des données et les lois du pays que vous examinez, les données peuvent souvent ne pas être soumises à la protection du droit d’auteur, ou elles peuvent être soumises à différentes lois spécifiques aux bases de données, c’est-à-dire sui generis droits de base de données dans l’Union européenne.

De plus, les données peuvent être consommées, transformées et incorporées dans des modèles d’intelligence artificielle (IA) et d’apprentissage automatique (ML) d’une manière différente de la façon dont les logiciels et autres contenus créatifs sont utilisés. Pour cette raison, les hypothèses formulées dans les licences couramment utilisées pour les logiciels et le contenu créatif peuvent ne pas s’appliquer de la manière attendue pour ouvrir les données.

Le choix est souvent une bonne chose, mais trop de choix peut être problématique. Pour être clair, d’autres licences sont utilisées aujourd’hui pour les cas d’utilisation de données ouvertes. En particulier, les licences et instruments de Creative Commons (tels que CC-BY-4.0 et CC0-1.0) sont utilisés pour partager des ensembles de données et du contenu créatif. Il était également important lors de la rédaction des accords CDLA de permettre la collaboration avec des licences similaires. Les accords CDLA ne sont en aucun cas censés être une critique de ces alternatives, mais plutôt les accords CDLA se concentrent sur la résolution de nouvelles préoccupations nées des cas d’utilisation de l’IA et du ML. Les modèles d’IA et de ML générés à partir de données ouvertes sont les principaux cas d’utilisation avec lesquels les organisations ont eu du mal – CDLA a été conçu pour répondre à ces préoccupations. Notre objectif était de trouver un équilibre entre des choix mis à jour et trop d’options.

Premiers pas : CDLA version 1.0

Il y a plusieurs années, en discutant avec des membres de la communauté des conseillers juridiques des membres de la Linux Foundation, nous avons commencé à collaborer pour développer un accord de licence qui permettrait clairement l’utilisation, la modification et le partage ouvert de données, avec un œil particulier sur les applications d’IA et de ML.

En octobre 2017, la Linux Foundation a lancé la version 1.0 du CDLA. La CDLA visait à fournir des droits clairs et explicites aux destinataires de données sous CDLA d’utiliser, de partager et de modifier les données à quelque fin que ce soit. Il est important de noter qu’il a également explicitement autorisé l’utilisation des résultats des données analysées pour créer des modèles d’IA et de ML, sans aucune des obligations qui s’appliquent en vertu de la CDLA au partage des données elles-mêmes. Il a été lancé avec deux types initiaux : un Permissif variante, avec des obligations de style attribution, et une Partage variante, avec un engagement réciproque de type « copyleft » lors du partage des données brutes.

L’accord CDLA-Permissive-1.0 a connu une certaine adoption et utilisation. Cependant, les commentaires ultérieurs ont révélé que certains donneurs de licence et utilisateurs potentiels de données dans le cadre de l’accord CDLA-Permissive-1.0 ont trouvé qu’il était trop complexe à utiliser pour les non-juristes. Bon nombre de ses dispositions visaient à répondre à des considérations spécifiques et nuancées pour les données ouvertes dans divers cadres juridiques. Bien que ces considérations en valaient la peine, nous avons vu que les communautés peuvent équilibrer cette spécificité et cette clarté par rapport à la valeur d’un ensemble concis de termes facilement compréhensibles pour les avocats et les non-juristes.

En partie en réponse à cela, en 2019, Microsoft a lancé le Accord d’utilisation ouverte des données (O-UDA-1.0) pour fournir un ensemble de termes plus concis et simplifié concernant le partage et l’utilisation des données à des fins similaires. Microsoft a gracieusement contribué à la gestion de l’O-UDA-1.0 à l’effort CDLA. Compte tenu du chevauchement de la portée de l’O-UDA-1.0 et du CDLA-Permissive-1.0, nous avons vu une opportunité de converger vers un nouveau projet pour un CDLA-Permissive-2.0.

Passer à la version 2.0 : simplifier, clarifier et rendre plus facile

À la suite de conversations avec diverses parties prenantes et après une période d’examen et de rétroaction avec la communauté des conseillers juridiques des membres de la Linux Foundation, nous avons préparé et publié CDLA-Permissif-2.0.

En réponse aux perceptions de CDLA-Permissive-1.0 comme trop complexe, CDLA-Permissive-2.0 est court et utilise un langage simple pour exprimer l’octroi des autorisations et des exigences. Comme la version 1.0, l’accord de la version 2.0 maintient les droits clairs d’utiliser, de partager et de modifier les données, ainsi que d’utiliser sans restriction tous les « résultats » générés par l’analyse informatique des données.

Contrairement à la version 1.0, le nouveau CDLA-Permissive-2.0 fait moins d’une page.

La seule obligation qu’il impose lors du partage de données est de « mettre à disposition le texte de cet accord avec les données partagées », y compris l’exclusion de garantie et de responsabilité.

Dans un sens, vous pourriez comparer son « caractère » général à celui des licences open source permissives plus simples, telles que les licences MIT ou BSD-2-Clause, bien que spécifiques aux données (et avec des obligations encore plus limitées).

L’un des principaux commentaires des utilisateurs de la licence et des avocats des organisations impliquées dans les données ouvertes était les défis liés à l’association des informations d’attribution aux données (ou aux versions d’ensembles de données).

Bien que les dispositions de « style d’attribution » puissent être courantes dans les licences de logiciels open source permissives, il y a eu des commentaires selon lesquels :

Alors que les technologies de données continuent d’évoluer au-delà de ce que les rédacteurs de la CDLA pourraient anticiper aujourd’hui, il n’est pas clair si les modes typiques de partage des attributions pour les logiciels open source s’adapteront bien au partage de données ouvert.

La suppression de cette exigence obligatoire a été considérée comme préférable.

Les destinataires de données sous CDLA-Permissive-2.0 peuvent toujours choisir de fournir une attribution sur les sources de données. L’attribution sera souvent importante pour les normes appropriées dans les communautés, et la compréhension de sa source d’origine est souvent un aspect clé de la valeur d’un ensemble de données ouvertes. Le CDLA-Permissive-2.0 n’en fait tout simplement pas une condition de partage de données.

CDLA-Permissive-2.0 supprime également certains des termes les plus confus dont nous avons appris qu’ils étaient tout simplement inutiles ou inutiles dans le contexte d’une collaboration de données ouvertes. La suppression de ces termes permet à CDLA-Permissive-2.0 de présenter les termes dans un format concis et facile à lire qui, selon nous, sera apprécié par les scientifiques des données, les utilisateurs d’IA/ML, les avocats et les utilisateurs du monde entier où l’anglais n’est pas une première Langue.

Nous espérons et anticipons que les communautés de données ouvertes trouveront facile de l’adopter pour la publication de leurs propres ensembles de données.

Voix de la communauté

« Le modèle de licence et de collaboration open source a rendu l’IA accessible à tous et a formalisé une voie à double sens pour les organisations à utiliser et à contribuer à des projets avec d’autres aidant à accélérer la recherche appliquée en IA. CDLA-Permissive-2.0 est une étape majeure dans la réalisation de ce type de succès dans le domaine des données, fournissant une licence open source spécifique aux données qui permet l’accès, le partage et l’utilisation des données entre les individus et les organisations. La communauté LF AI & Data apprécie la clarté et la simplicité fournies par CDLA-Permissive-2.0. Dr Ibrahim Haddad, directeur exécutif de LF AI & Data

« Nous apprécions la simplicité du CDLA-Permissive-2.0, et nous apprécions la communauté assurant la compatibilité avec les ensembles de données sous licence Creative Commons. » Catherine Stihler, PDG de Creative Commons

« IBM est à la pointe de l’innovation dans les ensembles de données ouvertes depuis un certain temps et en tant que membre fondateur de l’accord de licence de données communautaires. Nous avons créé une riche collection d’ensembles de données ouvertes sur notre Data Asset eXchange qui utilisera désormais le nouveau CDLAv2, y compris l’ajout récent de CodeNet – un ensemble de données de 14 millions d’échantillons pour développer des modèles d’apprentissage automatique qui peuvent aider dans les tâches de programmation. Ruchir Puri, boursier IBM, scientifique en chef, IBM Research

« Partager et collaborer avec des données ouvertes devrait être indolore – et les accords de partage devraient être faciles à comprendre et à appliquer. Nous applaudissons l’approche claire et compréhensible du nouvel accord CDLA-Permissive-2.0. » Jennifer Yokoyama, vice-présidente et conseillère en chef de la propriété intellectuelle, Microsoft

« C’est passionnant de voir des communautés d’experts juridiques et d’experts en IA/ML se réunir pour travailler sur des défis inter-organisationnels afin de développer un cadre pour soutenir la collaboration et le partage de données. » Nithya Ruff, présidente du conseil d’administration, The Linux Foundation et directrice exécutive, Open Source Program Office, Comcast

« Les données sont un élément essentiel de la façon dont les entreprises construisent leurs opérations aujourd’hui, en particulier autour des ensembles de données ouvertes qui sont disponibles pour un usage public. Chez OpenUK, nous accueillons la licence CDLA-Permissive-2.0 comme un outil pour rendre les données ouvertes plus disponibles et plus gérables au fil du temps, ce qui sera essentiel pour relever les défis auxquels les organisations sont confrontées. Cette nouvelle approche facilitera la collaboration autour des données ouvertes et nous espérons l’utiliser dans nos prochains travaux dans cet espace. Amanda Brock, PDG d’OpenUK

« Verizon soutient les efforts de la communauté pour développer des solutions claires et évolutives aux problèmes juridiques liés à la construction de l’intelligence artificielle et de l’apprentissage automatique, et nous accueillons le CDLA-Permissive-2.0 en tant que mécanisme permettant aux fournisseurs de données et aux développeurs de logiciels de travailler ensemble à la création de nouvelles technologies. » Meghna Sinha, vice-présidente – Centre d’IA, Verizon

« Sony pense que la diffusion de licences Open Data claires et simples comme CDLA-2.0 active l’écosystème Open Data et contribue à l’innovation avec l’IA. Nous soutenons les efforts de CDLA et espérons que CDLA sera largement utilisé. Hisashi Tamai, vice-président directeur, Sony Group Corporation

Ensembles de données disponibles sous CDLA-Permissive-2.0

Avec la sortie d’aujourd’hui de CDLA-Permissive-2.0, nous sommes également heureux d’annoncer plusieurs ensembles de données qui sont désormais disponibles dans le cadre du nouvel accord.

L’IBM Center for Open Source Data and AI Technologies (CODAIT) commencera à renouveler la licence de ses ensembles de données publics hébergés ici en utilisant le CDLA-Permissive 2.0, en commençant par Projet CodeNet, un ensemble de données à grande échelle avec 14 millions d’échantillons de code développé pour conduire des innovations algorithmiques dans l’IA pour des tâches de code telles que la traduction de code, la similarité de code, la classification de code et la recherche de code.

Microsoft Research annonce que les ensembles de données suivants sont désormais disponibles sous CDLA-Permissive-2.0 :

le Hippocorpus ensemble de données, qui comprend des histoires courtes de type journal intime sur des événements rappelés et imaginés pour aider à examiner les processus cognitifs de la mémoire et de l’imagination et leurs traces dans le langage ; Perception publique de l’intelligence artificielle ensemble de données, comprenant des analyses de corpus de textes au fil du temps pour révéler les tendances des croyances, des intérêts et des sentiments sur un sujet ; Description des avatars Xbox ensemble de données, un corpus de descriptions d’avatars Xbox créés par de vrais joueurs ; UNE Ensemble de données d’incorporations de mots doubles, formé aux requêtes Bing, pour faciliter la recherche d’informations sur les documents ; etA Trajectoire GPS ensemble de données, contenant 17 621 trajectoires avec une distance totale d’environ 1,2 million de kilomètres et une durée totale de plus de 48 000 heures.