Désinscriptions lisibles par machine de TDM
Alors que nous entrons dans le dernier mois de la législature européenne actuelle, de plus en plus de signes indiquent que les législateurs européens ne parviennent pas à s’entendre sur la loi sur l’IA., ce qui était censé être l’une des principales réalisations en matière de politique numérique de la Commission d’Ursula von der Leyen. Des informations récentes dans les médias suggèrent que le Parlement et les États membres restent en désaccord sur comment et (si) la loi devrait réglementer les soi-disant modèles de fondation. Bien que cette discussion se concentre principalement sur la tension entre l’innovation et les problèmes de sécurité liés à de tels systèmes, elle est également pertinente du point de vue du droit d’auteur, dans la mesure où les efforts visant à introduire des exigences de transparence liées à l’utilisation d’œuvres protégées par le droit d’auteur pour la formation de modèles d’IA génératifs font partie d’un cadre plus large. ensemble d’exigences destinées aux modèles de fondations, dont le sort est désormais menacé.
La dernière proposition de compromis de la présidence du Conseil (diffusé avant l’échec des négociations) comprenait deux exigences différentes qui s’appliqueraient aux fournisseurs de modèles d’IA générative et qui devraient être remplies avant que de tels modèles puissent être disponibles dans l’UE. Les fournisseurs de tels modèles devraient « préparer et rendre public un résumé suffisamment détaillé du contenu utilisé pour former le modèle ou le système ainsi que des informations sur la politique interne du fournisseur en matière de gestion des aspects liés au droit d’auteur » et ils devraient démontrer « qu’une des mesures ont été prises pour garantir que la formation du modèle ou du système est effectuée dans le respect du droit de l’Union sur le droit d’auteur et les droits voisins, notamment en ce qui concerne l’article 4, paragraphe 3, de la directive (UE) 2019/790.
Alors que la première obligation est une version évoluée du langage contenu dans le rapport du Parlement européen sur la loi sur l’IA, la deuxième obligation est nouvelle. Cela introduirait la première (et la seule) référence explicite au cadre européen existant en matière de droits d’auteur en exigeant que les fournisseurs de modèles génératifs démontrent leur conformité à l’article 4, paragraphe 3, de la directive CDSM, qui permet aux créateurs et autres titulaires de droits de réserver explicitement l’utilisation de leurs les œuvres pour l’exploration de textes et de données, y compris les reproductions nécessaires à l’utilisation des œuvres pour former des modèles d’IA génératifs (ci-après dénommés « opt-out »).
Si elle est adoptée sous cette forme, une telle disposition renforcerait considérablement la position des créateurs et des titulaires de droits pour empêcher ou autoriser l’utilisation de leurs œuvres à des fins de formation de modèles d’IA génératifs, comme le prévoit la directive CDSM. Cela renforcerait également l’importance des clauses de non-participation lisibles par machine pour l’approche de l’UE visant à réglementer l’utilisation d’œuvres protégées par le droit d’auteur pour la formation de modèles d’IA (génératifs).
Se désinscrire – mais comment ?
Cette évolution amène une attention supplémentaire à la question de savoir comment ces opt-outs lisibles par machine devraient fonctionner dans la pratique. Comme nous l’avons montré dans un note d’orientation récente sur la définition des meilleures pratiques pour se désinscrire de la formation en apprentissage automatique (ML) (co-écrit avec ma collègue Zuzanna Warso), on ne sait pas vraiment comment ces opt-outs fonctionneront dans la pratique, car il n’existe actuellement aucune norme ou protocole généralement reconnu pour l’expression lisible par machine de la réserve de droits. Il existe un certain nombre d’approches émergentes sur cette question, allant des protocoles développés par les éditeursservices développés par des startups dirigées par des artisteset spécifications proposées par les sociétés d’IA [1,2,3], mais il existe actuellement beaucoup d’incertitude quant à savoir lesquels d’entre eux seront pris en charge par les développeurs de modèles d’IA. En conséquence, il existe une grande incertitude pour les créateurs et les titulaires de droits quant aux avantages pratiques d’investir dans l’utilisation de l’un de ces outils et normes.
Dans notre note d’orientation Nous soutenons donc qu’il est urgent que la Commission européenne intervienne dans ce domaine et fournisse des orientations sur les réserves de droits lisibles par machine. Nous suggérons que, dans un premier temps, la Commission identifie publiquement les sources de données, les protocoles et les normes qui permettent aux auteurs et aux titulaires de droits d’exprimer une réserve de droits lisible par machine conformément à l’article 4, paragraphe 3, du CDSM, qui sont disponibles et dont la fonctionnalité est publique. documenté. Une telle liste de normes apporterait de la clarté aux titulaires de droits et plus de certitude aux développeurs de ML cherchant à comprendre comment se conformer à leurs obligations en vertu de l’article 4, paragraphe 3, de la directive CDSM.
Convergence sur les opt-outs ?
Jusqu’à présent, les principaux acteurs du domaine de l’IA générative sont restés largement silencieux sur la manière dont ils entendent se conformer aux obligations du cadre européen en matière de droit d’auteur. La majeure partie du débat public sur le statut juridique de l’utilisation d’œuvres protégées par le droit d’auteur pour former des systèmes d’IA générative s’est concentrée sur un nombre croissant de poursuites contestant les pratiques actuelles du système américain du droit d’auteur et sur la question de savoir si l’utilisation d’œuvres protégées par le droit d’auteur pour former des systèmes d’IA générative constitue une utilisation équitable.
Dans ce contexte, il est intéressant d’examiner les réponses soumises par les principales entreprises d’IA à l’avis d’enquête (NOI) sur l’intelligence artificielle et le droit d’auteur publié par le US Copyright Office le 30 août.. Parmi les près de 10 000 réponses, on retrouve les réponses de tous les grands noms de l’IA générative. Sans surprise, ils soutiennent tous que l’utilisation d’œuvres protégées par le droit d’auteur pour entraîner leurs systèmes devrait être considérée comme un usage équitable. Mais derrière cette première ligne de défense, nombre d’acteurs majeurs (Open AI, Microsoft, Google, Stability AI, Hugging Face) admettent qu’il faut respecter les opt-outs, au moins sur une base volontaire.
Dans ce contexte, GoogleMicrosoftet IA ouverte tous soulignent l’introduction de leurs propres normes propriétaires qui permettent aux titulaires de droits (« éditeurs Web ») de refuser que leurs œuvres soient utilisées pour former des modèles d’IA spécifiques. Ces normes sont basées sur des extensions du protocole robots.txt qui permettent aux éditeurs Web d’exclure les œuvres publiées en ligne de l’inclusion dans l’ensemble de données de formation d’un petit nombre de modèles d’IA génératives appartenant à ces sociétés. En outre, Open AI indique qu’elle gère un formulaire Web permettant aux créateurs et autres titulaires de droits de demander l’exclusion d’œuvres visuelles de l’ensemble de données de formation qui alimente le modèle DALL-E.
Parmi les répondants, seul Google positionne explicitement son protocole de désinscription comme une mise en œuvre de l’article 4(3) de la directive CDSM :
Google-Extended est un exemple d’approche conforme à la directive sur le droit d’auteur sur le marché unique numérique de l’Union européenne, et plus particulièrement à la référence de l’article 4 aux outils de désinscription lisibles par machine.
Bien qu’il soit intéressant de voir une reconnaissance explicite de la nécessité de se conformer à l’article 4(3) dans cette réponse, il s’agit presque certainement d’une fausse déclaration selon laquelle google-extended est conforme aux exigences énoncées dans cet article. L’article 4(3) du CDSM permet aux ayants droit de se réserver le droit de « reproductions et extractions » de leurs œuvres « à des fins d’exploration de textes et de données ». Pour le « contenu rendu public en ligne », cela doit être fait sous une forme lisible par machine. Cela ne donne pas – comme la réponse l’indique – aux créateurs le privilège de refuser que leurs œuvres soient utilisées comme données de formation pour des modèles spécifiques.[1] exploités par des entreprises individuelles, d’une manière déterminée par l’entreprise qui forme ces modèles. Comme l’ont souligné les créateursUn tel mécanisme de non-participation spécifique à un modèle ne sert à rien pour eux, car il les obligerait à fournir à plusieurs reprises des non-participations pour chaque entité qui forme des modèles, ce qui consommerait des ressources disproportionnées.
Dans le passage ci-dessus, Google est utilisé comme exemple, mais le problème est également présent dans les approches adoptées par Open Ai et Microsoft, qui souffrent également de proposer des opt-outs qui sont à la fois spécifiques au modèle et doivent être exprimés sous une forme spécifiée. par les entreprises. Et celles-ci sont loin d’être les seules entités engagées dans des activités de formation entrant dans le champ d’application de l’article 4, paragraphe 3, de la directive CDSM.
Cette situation met en évidence le besoin urgent d’une manière standardisée permettant aux titulaires de droits de retirer leurs œuvres de ces activités de formation. Une telle norme ne doit pas être spécifique au fournisseur de modèles et doit s’appliquer à toutes les utilisations de l’œuvre couvertes par l’article 4(3). La fragmentation actuelle du domaine en pseudo-normes spécifiques aux fournisseurs de modèles montre que le développement d’une telle norme ne peut pas leur être laissé, mais doit se produire dans un cadre avec une représentation plus large des parties prenantes. Un tel processus serait idéalement initié ou soutenu par la Commission européenne.
Établisseur de normes ou preneur de normes ?
Un autre développement, illustré par les réponses des entreprises d’IA à la NOI du Copyright Office, est qu’il existe une certaine convergence vers l’acceptation du fait que les opt-outs jouent un rôle important dans la gouvernance des ensembles de données de formation à l’IA pour les systèmes d’IA générative. Comme souligné ci-dessus, la plupart des principaux acteurs du domaine le reconnaissent dans leurs réponses, qui citent l’utilisation équitable comme cadre pertinent, mais indiquent également qu’en pratique, ils respectent les clauses de non-participation sous une forme ou une autre. Au moins deux d’entre eux – Anthropic et Open AI – soulignent également explicitement la nécessité de considérer « l’harmonie et l’interopérabilité des approches en matière de droit d’auteur entre les grandes économies » (extrait de la soumission d’Anthropic).
C’est précisément à ce stade que l’approche législative équilibrée adoptée par l’UE dans la directive CDSM de 2019 pourrait devenir un modèle mondial. L’approche (constituée des articles 3 et 4 de la directive CDSM) prend en compte les intérêts de la communauté de la recherche scientifique (qui bénéficient de l’exception de l’article 3), des créateurs et des titulaires de droits qui gèrent activement leurs œuvres (qui ont le droit de se retirer de toutes les autres types d’utilisations). Il prend également en compte les intérêts des développeurs d’IA et des utilisateurs d’outils d’IA (dont beaucoup sont eux-mêmes des créateurs) qui conservent l’accès à la richesse du contenu partagé en ligne mais non géré activement.
Dans ce contexte, il convient également de noter que certains spécialistes de l’utilisation équitable ont récemment commencé à suggérer que les exigences légales d’accès et de non-participation établies par la directive CDSM devraient être prises en compte lors de la détermination du statut d’utilisation équitable de l’utilisation de œuvres protégées par le droit d’auteur pour la formation ML[2]. Cela témoigne encore une fois d’une certaine convergence d’approches entre différentes traditions en matière de droit d’auteur.
La possibilité que l’approche européenne devienne un modèle mondial rend d’autant plus important de compléter le cadre européen en identifiant des normes de non-participation. Sans une norme (ou un ensemble de normes) généralement acceptée, le système d’équilibre contenu dans les exceptions TDM ne pourra pas survivre au contact avec la réalité créée par l’émergence soudaine de l’IA générative comme nouveau paradigme technologique majeur.
—————————————————————————————————————————–
[1] Selon la spécification Google étend l’application à deux modèles spécifiques (Bard et Vertex AI).
[2] Voir par exemple les réflexions du professeur Mathew Sag sur l’équité et l’utilisation équitable dans l’IA générative. prononcé lors de la 12e conférence annuelle Peter A. Jaszi sur la propriété intellectuelle en septembre de cette année.