Procedura opt-out TDM czyli jak chronić swoją twórczość przed trenowaniem genAI?

Magdalena Miernik

10 miesięcy ago

Twórco, czy wiesz, że możesz sprzeciwić się wykorzystywaniu utworów Twojego autorstwa do trenowania modeli generatywnej sztucznej inteligencji? Dzisiaj opowiem Ci o procedurze opt-out TDM, dzięki której możesz chronić swoją twórczość przed jej niekontrolowanym wykorzystywaniem do trenowania modeli genAI.

Wyjątek TDM czyli po co nam w ogóle procedura opt-out?

Zanim opowiem Ci o samej procedurze opt-out pozwól, że w pierwszej kolejności odpowiem na pytanie po co w ogóle wymyślono procedurę opt-out? I dlaczego to twórca ma obowiązek dokonać sprzeciwu przed wykorzystywaniem efektów jego pracy twórczej, a nie – jak w przypadku klasycznych przepisów prawa autorskiego dot. monopolu autorskiego – to nie ten, kto chce skorzystać z efektów jego pracy twórczej powinien zwrócić się o zgodę do twórcy?

Aby odpowiedzieć na to pytanie musisz dowiedzieć się czym jest wyjątek TDM – text and data mining.

Dyrektywa o prawie autorskim na jednolitym rynku cyfrowym w art. 3 („Eksploracja tekstów i danych na potrzeby badań naukowych”) oraz w art. 4 („Wyjątki lub ograniczenia w odniesieniu do eksploracji tekstów i danych”) wprowadziła tzw. wyjątek TDM (text and data mining) = wyjątek umożliwiający prowadzenie eksploracji danych do celów naukowych oraz „dla innych zastosowań” (a tym innym zastosowaniem może być – na przykład – uczenie modeli genAI na naszych, rozpowszechnionych już dziełach – przedmiotach prawa autorskiego), z zastrzeżeniem, że właściciele praw autorskich mogą wyrazić sprzeciw wobec takiego wykorzystania ich dzieł.

Przepisy tej dyrektywy zostały wprowadzone do polskiego porządku prawnego zeszłoroczną nowelizacją prawa autorskiego (nowelizacją ustawy z dnia 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych), o której pisałam w materiale: Nowelizacja prawa autorskiego 2024 © Najważniejsze zmiany dla twórców.

Obecnie zatem zarówno przepisy polskiego, jak i europejskiego prawa autorskiego zezwalają na zwielokrotnianie już rozpowszechnionych utworów różnego rodzaju twórców w ramach tzw. analizy TDM (text and data mining) tj. w odniesieniu do eksploracji tekstów i danych (w praktyce – powiedzmy sobie wprost – najczęściej do uczenia sztucznej inteligencji) bez zgody autora, chyba że… twórca dokona odpowiedniego zastrzeżenia w odniesieniu do eksploracji tekstów i danych, czyli skorzysta z tzw. procedury opt-out.

Twórca ma zatem prawo NIE wyrazić zgody na wykorzystywanie jego utworów do trenowania modeli generatywnej AI.

Twórca ma zatem prawo NIE wyrazić zgody na wykorzystywanie jego utworów do trenowania modeli generatywnej AI. Takie zastrzeżenie powinno – w praktyce, nie tylko w teorii – uniemożliwić genAI uzyskiwanie w ramach TDM danych z jego utworów. Tylko… jak to zrobić? Jak procedura opt-out wygląda w praktyce?

Procedura opt-out w praktyce

Nie istnieje jedna, narzucona z góry przez europejskiego bądź polskiego ustawodawcę, procedura dokonania sprzeciwu (procedura opt-out). W praktyce zatem wdrożenie procedury może wyglądać w różny sposób, na przykład następująco:

#1 Publikacja sprzeciwu w formie oświadczenia

Po pierwsze rekomendowana jest publikacja sprzeciwu w formie oświadczenia. Takie oświadczenie może brzmieć następująco:

„Niniejszym/ z dniem … dokonuję zastrzeżenia wobec wszelkich działań z zakresu eksploracji tekstów i danych. Zastrzeżenie dotyczy wszystkich utworów mojego autorstwa rozpowszechnionych w ramach tej strony internetowej w zakresie, w jakim stanowią one w całości lub części element dowolnego rodzaju rozpowszechnionych treści.”

Tak, wiem, może Ci się to kojarzyć z popularnymi dawno temu „łańcuszkami” informującymi „o nieudzielaniu zgody Facebookowi na korzystanie z praw autorskich do publikowanych postów” (podczas gdy udzielamy zgody na korzystanie z praw autorskich do publikowanych przez nas postów Facebookowi lub Instagramowi już w chwili akceptacji regulaminu) ale zapewniam, że tym razem to nie jest żaden żart.

Swoją drogą, możesz przeczytać także: Na jakiej podstawie Facebook, YouTube i Linkedin korzystają z Twoich treści?

#2 Publikacja sprzeciwu w formie możliwej do „technicznego” odczytania

Wracając do procedury opt-out. Oprócz publikacji oświadczenia należy zadbać również o to, aby sprzeciw był możliwy od „technicznego” odczytania dlatego ważne jest przygotowanie i odpowiednie skonfigurowanie pliku robots.txt.

Nie jestem ekspertem od IT ale z informacji, które uzyskałam przygotowując ten artykuł wynika, że taki plik robots.txt powinien być umieszczony w ścieżce głównej – tzw. root-directory- domeny głównej i wszystkich subdomen strony twórcy + musi być dostępny publicznie oraz zawierać odpowiednią treść – treść sprzeciwu.

🔝 Dobrym przykładem sposoby wdrożenia tej procedury jest sposób zaprezentowany przez Stowarzyszenie Autorów ZAiKS, które – dla ułatwienia twórcom skorzystania z procedury opt-out – publikuje nawet przykładowy plik robots.txt

Muszę jednak zaznaczyć, ze istnieją również głosy krytyczne co do skuteczności takiego rozwiązania, o których warto wiedzieć: http://p4sc4l.substack.com/p/opt-out-mechanisms-such-as-robotstxt

Jeszcze „dobitniej” o niewielkiej skuteczności pliku robots.txt jako sposobu na powstrzymanie sztucznej inteligencji przed wykorzystywaniem rozpowszechnionej już twórczości do trenowania i powiększania swojej bazy wypowiada się… chatGPT, który żartuje, że poleganie na pliku robots.txt przypomina sytuację pozostawienia pamiętnika na kuchennym stole z notatką „Proszę nie czytać” – i oczekiwanie, że wścibskie rodzeństwo uszanuje komunikat i nie sięgnie do treści pamiętnika.

Relying on robots.txt to stop AI crawlers is like leaving your diary on the kitchen table with a note that says 'Please don’t read’ — and expecting your nosy sibling to suddenly grow a conscience.”

„It sets a boundary, sure — but it’s only effective if the crawler chooses to respect it.” – konstatuje chatGPT.

Komentarz eksperta IT na temat procedury ot-out

Aby rozwiać istniejące wątpliwości poprosiłam o komentarz specjalistę z zakresu IT – Grzegorza Piwowarka – niezależnego konsultanta, Oracle ACE, lidera warszawskiego Java User Group oraz projektu Vavr, współtwórcę bloga 4Comprehension.com, gdzie wraz z zespołem prowadzi szkolenia i doradza firmom w zakresie architektury, niezawodności i inżynierii oprogramowania – w Polsce i na świecie.

Grzegorz Piwowarek (👉 LinkedIn) o skuteczności procedury opt-out wypowiedział się następująco:

„Fundamentalny problem procedury opt-out z technicznego punktu widzenia polega na tym, że narzędzia do jej egzekwowania praktycznie nie istnieją. Pliki robots.txt powstały jako reakcja na kontrowersje związane z indeksowaniem treści przez wyszukiwarki i stanowią jedynie sugestię dla aplikacji indeksujących, którą można całkowicie legalnie zignorować.

Owszem, proces zautomatyzowanego pobierania danych można w pewnym stopniu utrudnić, np. przez:
– CAPTCHA (irytujące zagadki typu „wskaż wszystkie obrazki z autobusami”),
– ograniczanie liczby żądań z jednego IP lub konta,
– dynamiczne modyfikowanie struktury strony niewidoczne dla użytkownika

Ale to utrudnienia a nie zabezpieczenia.

W przypadku wyszukiwarek łatwo jest sprawdzić, czy strona została zaindeksowana. W przypadku generatywnej AI niemal niemożliwe jest ustalenie, czy dany utwór został użyty do treningu modelu, dopóki wynik pracy modelu nie przypomina istniejącego utworu „zbyt bardzo”.

Obecnie jedyne, czym dysponujemy, to deklaracje woli, jak robots.txt, oraz zapisy w regulaminach czy politykach prywatności. Ich skuteczność opiera się wyłącznie na dobrej woli odbiorcy.

W przyszłości być może pojawią się regulacje prawne wymuszające przejrzystość zbiorów danych i mechanizmy umożliwiające śledzenie źródeł wiedzy wykorzystanej w generacjach. Ale nawet wtedy nie zabezpieczy nas to przed trenowaniem modeli w szarej strefie, przez podmioty, które nie będą respektować żadnych opt-outów.

Czy to znaczy, że nie warto korzystać z robots.txt czy zapisów regulaminowych?

Warto – pomimo tego, że to bardziej deklaracja symboliczna niż skuteczna techniczna zapora, to jej wdrożenie zajmuje zaledwie kilka/kilkanaście minut a w przyszłości może skutecznie wybronić nas w sądzie a rozwiązania, które zabezpieczyłyby nas w 100%, istnieją na razie tylko w dystopijnych powieściach science fiction… i lepiej niech tam pozostaną.”

– Grzegorz Piwowarek

Dziękuję za ten cenny komentarz.

Procedura opt-out – wątpliwości i wyzwania

Oczywiście, zdaję sobie sprawę, że tak niejasne kryteria skutecznego wdrożenia procedury opt-out mogą budzić wiele (słusznych) wątpliwości, ale na braki i liczne pytania w tym obszarze zwracają uwagę nawet autorzy raportu „Copyright and Generative AI” przygotowanego przez European Copyright Society (ECS), który analizuje problemy związane z rozwojem generatywnej sztucznej inteligencji (AI) w kontekście obecnie obowiązujących regulacji Unii Europejskiej, w szczególności Dyrektywy o prawie autorskim na jednolitym rynku cyfrowym (CDSM) z 2019 roku oraz AI Act z 2024 roku.

Zdaniem autorów raportu „Copyright and Generative AI” konieczne jest doprecyzowanie unijnych regulacji w celu lepszej ochrony praw twórców oraz zapewnienia większej przejrzystości dla podmiotów rozwijających technologie sztucznej inteligencji, między innymi właśnie w zakresie korzystania z procedury opt-out.

Co prawda – zgodnie z art. 53 (1) (c) Rozporządzania o sztucznej inteligencji (AI Act) dostawcy modeli generatywnej sztucznej inteligencji mają obowiązek respektowania zgłoszonego sprzeciwu właścicieli praw autorskich wobec wykorzystywania ich treści w procesie trenowania modeli AI:

Zgodnie z art. 53(1)(c) Rozporządzenia o sztucznej inteligencji dostawcy modeli generatywnej sztucznej inteligencji mają obowiązek respektowania zgłoszonego sprzeciwu właścicieli praw autorskich wobec wykorzystywania ich treści w procesie trenowania modeli AI.

jak jednak jest (lub będzie) w rzeczywistości? O tym zapewne przekonamy się dopiero za jakiś czas.

Procedura opt-out – na czym obecnie „stoimy”?

Na ten moment warto jednak wiedzieć, że przepisy Rozporządzenia o sztucznej inteligencji (AI Act) nakładają na dostawców modeli generatywnej sztucznej inteligencji obowiązek wdrożenia mechanizmów respektujących sprzeciw właścicieli praw autorskich wobec wykorzystania ich treści w procesach eksploracji danych (możliwość zasygnalizowania przez właścicieli praw autorskich sprzewiu wobec wykorzystania ich treści = skorzystanie z tzw. procedury „opt-out”), chociaż na ten moment przepisy te nie są prezycyjne.

Wątpliwości budzi między innymi moment, w którym można zgłosić sprzeciw – czy powinno to nastąpić przed rozpoczęciem procesu eksploracji danych, czy też możliwe jest wycofanie zgody w trakcie funkcjonowania modelu sztucznej inteligencji? Tego jeszcze nie wiemy.

Brak jednoznacznych wytycznych dotyczących metod i sposobów zgłaszania sprzeciwu może powodować liczne wyzwania prawne i brak poczucia skuteczności procedury opt-out. Nie zmienia to jednak faktu, że moim zdaniem warto tę procedurę znać i z niej korzystać, aby przynajmniej w taki (niepewny na ten moment co do swej skuteczności) sposób zabezpieczyć swoje prawa.

___

Więcej o wnioskach z Raportu „Copyright and Generative AI” European Copyright Societydowiesz się z tego materiału 👉 Sztuczna inteligencja a prawo autorskie – podsumowanie raportu „Copyright and Generative AI” European Copyright Society

Potrzebujesz pomocy prawnej? 👉 Skorzystaj z konsultacji prawnych online.

Zobacz także:

fot.: Omar Lopez-Rincon on Unsplash