ChatGpt ha letto un po’ romanzi di narrativa. Sapevamo che l’IA sia stata addestrata attraverso l’assimilazione di numerosi testi. Quello che non sapevamo e su quali ChatGpt si fosse allenato. A scoprire quali ci ha pensato David Bamman professore di Natural language processing (NLP) all’Università di Berkeley in California.
La specialità di Bamman è quella di usare la tecnologia per costruire “dispositivi di misurazione algoritmica per la letteratura”. La volontà è quella di estrarre dati dalla letteratura classica lavorando su diverse macroaree, come le relazioni tra i vari personaggi di un romanzo. Nel caso specifico il ricercatore stava iniziando a lavorare sul classicone Orgoglio e pregiudizio di Jane Austen quando ha deciso, per curiosità, di girare i suoi interrogativi a ChatGpt, scoprendo che la versione GPT-4 del chatbot era incredibilmente accurata sull’albero genealogico dei Bennet. Come se avesse studiato il romanzo in anticipo.
Il ricercatore ha deciso dunque di saperne di più usando il metodo che un professore di letteratura userebbe per capire se un suo studente ha letto davvero un libro o se bluffa con Wikipedia. Con il suo team ha cominciato a interrogare ChatGpt in modo massivo su una discreta quantità di testi, interrogandolo sulla conoscenza di vari libri e dando un punteggio per ognuno. Più alto era il punteggio, più era probabile che quel libro facesse parte del set di dati del software. Al termine delle sue interrogazioni Bamman ha stilato la lista dei romanzi che ChatGpt conosce meglio e che, molto probabilmente, sono stati dati in pasto al software per sviluppare conoscenze sulla sintassi e per avere informazioni sulla cultura generale e sulla letteratura.
I libri letti da Chat GPT
L’elenco dei 50 romanzi che il team di ricercatori ha scovato – pubblicato su Business Insider – ovviamente una piccola parte dell’immenso database del chatbot – comprende i libri cult della letteratura nerd: Douglas Adams con Guida Galattica per Autostoppisti, Frank Herbert e il suo Dune, George R.R. Martin e The Game of Thrones e Philip. K.. Dick con Ma gli androidi sognano pecore elettriche?. Non mancano anche cenni di letteratura americana come Furore di John Steinbeck o passaggi di letteratura inglese con Il Signore delle Mosche di William Golding.
Con sorpresa il team ha scoperto che i libri con la percentuale di conoscenza più alta da parte di Chat GPT sono libri di fantascienza e fantasy. In cima alla lista ci sono Harry Potter e la pietra filosofale, il primo della saga firmata da J.K. Rowling e 1984 di George Orwell. Al terzo posto c’è La compagnia dell’Anello, capostipite questa volta della saga di J.R.R. Tolkien. Ancora, Fahrenheit 451, Il mondo nuovo ma anche Neuromante di Gibson e Il cacciatore di androidi di Philip K. Dick, capolavori cyberpunk che, ironia della sorte, sono stati tra i primi a parlare dei pericoli intelligenza artificiale. Nella lista dei libri ci sono anche un paio di romanzi della saga di 007 di Ian Fleming, mentre tra i testi che ChatGpt conosce meno figurano Shining e I diari di Bridget Jones.
Nerd amante del fantasy e della fantascienza
“In pratica, scorrendo i titoli assimilati da ChatGpt, si scorge il profilo di un giovane adulto, mediamente colto e con una discreta passione per la narrativa fantasy e la nerd culture”, ci informano i ricercatori. Proprio il profilo degli ingegneri informatici che hanno effettivamente programmato il software.
Il team si è sicuramente divertito con un bel gioco letterario, che però nasconde quesiti dal significato sinistro, come osserva Bamman: “Le fonti su cui sono stati addestrati questi modelli di intelligenza artificiale influenzeranno il tipo di modelli stessi e i valori che presentano. Cosa succede quando un bot divora narrativa su tutti i tipi di mondi oscuri e distopici? In che modo questo genere può influenzare il comportamento di questi modelli in modi che non riguardano cose letterarie o narrative? Non abbiamo ancora la risposta a questa domanda”.
I meccanismi interni dei grandi modelli linguistici come ChatGpt sono una scatola nera, non si sa cosa contengono. Ma è abbastanza chiaro che più questi software saranno influenti sulla nostra vita, più sarà necessario capire i meccanismi con cui sono addestrati. Insomma la trasparenza sarà la chiave di volta per avere AI più umane.
Leggi tutto su www.wired.it
di Marco Trabucchi www.wired.it 2023-06-05 14:07:41 ,