Il 57% dei contenuti presenti su internet è generato dall’AI, e questo non è un bene

Che i risultati di esame siano notevolmente peggiorati con l’avvento dell’intelligenza artificiale è oramai un sentore comune tra gli utenti. A confermarlo, però, arriva ora uno studio condotto dai ricercatori di Amazon Web Services (Aws), che rivela che ben il 57% dei contenuti presenti in rete è generato dall’AI o tradotto con il supporto di uno dei modelli AI attualmente in circolazione. Anzi, secondo i dati riportati nell’indagine, sarebbero proprio i contenuti tradotti dall’intelligenza artificiale – spesso in modo sommario e non del tutto corretto – a popolare il web, tanto da rappresentare “una parte importante del contenuto totale in quelle lingue”. Ma non finisce qui.

A preoccupare i ricercatori, infatti, è soprattutto il fatto che la crescita continua dei contenuti generati dall’AI in rete, associata alla forte dipendenza dai modelli che stiamo sviluppando per creare e/o modificare contenuti, potrebbe portare a quello che nel gergo viene definito “il collasso del modello”. Dato che i chatbot più noti, come ChatGpt o Gemini, sono formati su dati acquisiti tramite lo scraping del web – una pratica che mira ad estrarre dai siti i dati utili per l’addestramento dei modelli – è chiaro che se la qualità dei contenuti presenti in rete peggiora notevolmente anche i modelli ne risentiranno in termini di prestazioni. Un circolo vizioso, che per il momento sembra difficile interrompere: i siti web si riempiono di contenuti di bassa qualità, generati o tradotti dall’AI, e poi quegli stessi contenuti diventano materiale di formazione per i modelli, che finiscono con l’imparare cose del tutto sbagliate.

“È sorprendente la rapidità con cui il collasso del modello si manifesta e quanto possa essere sfuggente“, ha dichiarato Ilia Shumailov, ricercatore dell’Università di Oxford, precisando che “il collasso del modello può avere gravi conseguenze“. Chiaramente, se internet continuasse a riempirsi di spazzatura, società come OpenAI e Google dovrebbero trovare una soluzione alternativa per la formazione dei loro modelli. Non stupisce, quindi, che lo stesso Sam Altman, ceo di OpenAI, abbia sostenuto più di una volta la necessità di accedere ai contenuti coperti da copyright per mettere a punto un chatbot di qualità.

Leggi tutto su www.wired.it
di Chiara Crescenzi www.wired.it 2024-09-10 12:21:16 ,