Microsoft a acquis GitHub en 2018 pour 7,5 milliards de dollars et, depuis lors, intègre le référentiel de code dans ses outils de développement tout en conservant une approche largement non interventionniste. Cependant, écrivain, avocat et programmeur Matthew Butterick a quelques problèmes avec l’assistant de code basé sur l’apprentissage automatique de MicrosoftGitHub Copilot, et la façon dont il gère apparemment mal les licences open source.
GitHub Copilot fonctionne en proposant des « suggestions » pour l’achèvement du code au fur et à mesure que vous tapez, et est un plugin disponible pour Visual Studio et d’autres IDE. le système basé sur l’IA est alimenté par le Codex. Mais c’est la façon dont l’IA est formée, ou plus précisément d’où elle est formée, qui devient un problème pour des développeurs comme Butterick.
Selon OpenAI, les développeurs de Codex (qui est sous licence Microsoft) :
Codex a été formé sur « des dizaines de millions de référentiels publics », y compris du code sur GitHub. Microsoft lui-même a vaguement décrit le matériel de formation comme « des milliards de lignes de code public ». Mais le chercheur de Copilot, Eddie Aftandilian, a confirmé dans un podcast récent (@ 36:40) que Copilot est « train[ed] sur les dépôts publics sur GitHub ».
Le problème ici est que ces référentiels publics sur lesquels GitHub est formé sont sous licence et nécessitent une attribution lorsque le code des référentiels est utilisé. Microsoft a été vague sur son utilisation du code, le qualifiant d’utilisation équitable, mais Copilot peut non seulement offrir des suggestions, mais aussi émettre des morceaux de code textuels, comme l’ont montré le professeur Texas A&M et utilisateur de GitHub, Tim Davis :
@github copilot, avec « code public » bloqué, émet de gros morceaux de mon code protégé par le droit d’auteur, sans attribution, sans licence LGPL. Par exemple, la simple invite « transposition de matrice creuse, cs_ » produit mon cs_transpose dans CSparse. Mon code à gauche, github à droite. Pas d’accord. pic.twitter.com/sqpOThi8nf
– Tim Davis (@DocSparse) 16 octobre 2022
Pour les programmeurs comme Butterick, qui contribuent au code open source par sens de la communauté, retirer toute attribution de leur travail est un problème :
On peut dire que Microsoft est en train de créer un nouveau jardin clos qui empêchera les programmeurs de découvrir les communautés open source traditionnelles. Ou à tout le moins, supprimez toute incitation à le faire. Avec le temps, ce processus affamera ces communautés. L’attention et l’engagement des utilisateurs seront déplacés vers le jardin clos de Copilot et loin des projets open source eux-mêmes, loin de leurs référentiels sources, de leurs suivis de problèmes, de leurs listes de diffusion, de leurs forums de discussion. Ce changement d’énergie sera une perte douloureuse et permanente pour l’open source.
Vous pouvez consulter Butterick’s « Enquête GitHub Copilot » pour plus d’informations.