Si allarga il gruppo di scrittori che hanno fatto causa a OpenAI per presunta violazione del diritto d’autore. Gli artisti – che hanno presentato una class action presso il tribunale federale di San Francisco venerdì – hanno accusato la società di Sam Altman di aver ottenuto benefici e profitti dall’uso non autorizzato e illegale dei loro contenuti protetti da copyright. Ad alzare la voce ci sono il vincitore del Premio Pulitzer Michael Chabon, il drammaturgo David Henry Hwang e gli autori Matthew Klam, Rachel Louise Snyder e Ayelet Waldman.
Questo è solo l’ultimo gruppo di autori ad intraprendere un’azione legale contro OpenAI. A luglio, l’autrice e comica Sarah Silverman si è unita agli scrittori Christopher Golden e Richard Kadrey in una causa che accusava OpenAI e Meta di violazione del copyright e prima di loro anche Paul Tremblay e Mona Awad hanno citato in giudizio OpenAI per motivi simili, facendo accuse pesanti ai creatori del chatbot ChatGPT.
OpenAI avrebbe violato la legge sul copyright
La causa sottolinea la capacità di ChatGPT di riassumere e analizzare il contenuto scritto dagli autori, affermando che ciò è possibile grazie al fatto che OpenAI ha addestrato il suo modello di linguaggio proprio con gli scritti degli autori. “Gli atti di violazione del copyright da parte di OpenAI sono stati intenzionali e in totale disprezzo dei diritti dei querelanti e dei membri della class action”, afferma la causa, aggiungendo: “OpenAI sapeva in ogni momento che i set di dati utilizzati per addestrare i suoi modelli GPT contenevano materiali protetti da copyright e che i suoi atti violavano i termini di utilizzo delle opere”.
I testi dati in pasto a ChatGPT
Non è un segreto che ChatGPT, a partire dalla sua prima versione GPT-1, abbia letto e “inglobato” numerosi libri. Come dichiarato dalla stessa OpenAI, il 15 % dei dati per addestrare l’algoritmo era frutto di “due corpora di libri”, definiti semplicemente “Books1” e “Books2”, senza specificare però quali. Un’inchiesta dell’Hollywood Reporter nel 2018 faceva chiarezza, affermando, grazie ai leaks dei programmatori che avevano lavorato al progetto, che OpenAI ha alimentato la prima versione del suo chatbot con circa 7 mila romanzi su BookCorpus, un database di romanzi gratuiti, che contiene più di 11.000 libri.
In seguito, secondo le accuse dei querelanti, ChatGPT avrebbe pescato “senza consenso, credito o compenso per i suoi autori” anche dal sito Smashwords.com che ospita romanzi inediti disponibili anche gratuitamente, ma comunque protetti da copyright. Una pratica che avrebbe coinvolto nel 2020 anche GPT-3, la versione precedente a quella attuale. Ma l’accusa più grave che i querelanti hanno fatto a OpenAI è quella di aver pescato libri ben più famosi utilizzando library illegali, tra cui Genesis, Bibliotik e Z Library, quest’ultima chiusa nel 2022. Tramite queste piattaforme, ChatGPT avrebbe avuto accesso a circa 300 mila volumi bypassando il consenso dei rispettivi autori.
Il gruppo di scrittori, oltre ad ad un risarcimento danni, ha chiesto il blocco delle “pratiche commerciali illegali e sleali di OpenAI”. Per contro, OpenAI e le altre società che hanno avuto cause simili – come Meta e Google – sostengono in coro che non ci sia niente di illegale nell’addestrare ChatGPT e le altre IA con i testi disponibili in rete. L’ultima parola spetterà ai giudici.
Leggi tutto su www.wired.it
di Marco Trabucchi www.wired.it 2023-09-12 12:33:07 ,