Gptbot è lo spider di OpenAI che raschia informazioni dalla rete

Da molto tempo la rete pullula di spiderbot che raccolgono informazioni di ogni genere in maniera subdola, scivolando tra un sito all’altro. L’avvento dell’intelligenza artificiale sembra però aver aggiunto nuovi protagonisti a questo scenario. Di recente OpenAI ha infatti confermato l’esistenza di Gptbot, un programma che in gergo viene chiamato crawler e che viene utilizzato per raccogliere online contenuti utili ad addestrare il modello linguistico dell’azienda – in questo caso specifico potrebbe trattarsi di Gpt-5. Ovviamente non tutte le realtà online sono ben disposte a lasciare che lo spiderbot di OpenAI passi in rassegna il loro materiale al fine di fornire dati da imparare al suo modello linguistico; la piattaforma di informazione The Verge, per esempio, ha già preso provvedimenti per bloccare Gptbot.

Twitter content

This content can also be viewed on the site it originates from.

“Infangato il diritto d’autore”

Quello che non piace ai proprietari di siti e portali è che, come ha dichiarato l’editore americano Neil Clarke, “OpenAI e altri creatori di ‘AI’ hanno ripetutamente dimostrato di non avere rispetto per i diritti di autori, artisti e altri professionisti creativi”. I modelli linguistici, infatti, risultano per lo più “basati su opere protette da copyright di altri, prese senza autorizzazione o compenso”. E questo ha portato le comunità online a voler tenere il crawler lontano dai loro siti di riferimento, tanto che la stessa OpenA per mostrarsi accomodante nei confronti delle posizioni critiche ha condiviso un modo per bloccare Gptbot, anche resta poco chiaro se questo metodo “sarà sufficiente per evitare che i contenuti vengano raccolti” dal crawler.

Leggi tutto su www.wired.it
di Chiara Crescenzi www.wired.it 2023-08-09 14:49:43 ,