L’Institutional data initiative sta lavorando anche con la Boston public library alla scansione di milioni di articoli di giornale e si dice aperta a partnership simili in futuro. L’Idi però non ha ancora chiarito il modo esatto in cui verrà messo a disposizione il set di dati. L’organizzazione ha chiesto a Google di collaborare alla distribuzione pubblica, ma i dettagli sono ancora in fase di definizione. In una dichiarazione, il presidente degli affari globali di Google Kent Walker ha sottolineato che l’azienda è “orgogliosa di sostenere” il progetto.
Addestrare l’AI in modo etico
In ogni caso, il set di dati dell’Idi si unirà a una serie di progetti, startup e iniziative simili che promettono di dare alle aziende l’accesso a materiali per la formazione dell’AI di alta qualità senza il rischio di incorrere in problemi di copyright. Negli ultimi tempi sono nate aziende, come Calliope networks e ProRata, per creare e gestire licenze o programmi finalizzati a pagare i creatori e i detentori di diritti dei dati di addestramento della tecnologia.
Quello di Harvard inoltre non è l’unico progetto di dominio pubblico. La scorsa primavera, la startup francese di AI Pleias ha lanciato il suo dataset pubblico, Common corpus, che contiene circa 3-4 milioni di libri e raccolte di periodici, stando a quando riportato dal coordinatore del progetto Pierre-Carl Langlais. Sostenuto dal incarico della Cultura francese, il Common corpus è stato scaricato più di 60mila volte solo questo mese sulla piattaforma open source di AI Hugging Face. La scorsa settimana, Pleias ha annunciato la distribuzione della prima serie di modelli linguistici di grandi dimensioni addestrati sui dati, i primi “addestrati solo su dati aperti e conformi all’AI Act” dell’Unione europea, osserva Langlais.
Ma ci sono anche sforzi per creare set di immagini simili. La startup Spawning ne ha rilasciato quest’estate, Source.Plus, che contiene immagini di dominio pubblico provenienti da Wikimedia Commons e da una serie di musei e archivi. E diverse importanti istituzioni culturali hanno da tempo reso accessibili i propri archivi, come il Metropolitan Museum of Art di New York.
Ed Newton-Rex, ex dirigente di Stability AI che ora dirige un’associazione no-profit che certifica gli strumenti di AI addestrati in modo etico, sostiene che l’aumento di questi set di dati dimostra che non è necessario rubare materiale protetto da copyright per costruire modelli di intelligenza artificiale di qualità. In passato OpenAI aveva dichiarato ai legislatori del Regno Unito che creare prodotti come ChatGPT senza utilizzare opere protette da copyright sarebbe stato “impossibile“.
Newton-Rex ha però ancora dubbi sul fatto che l’Idi e progetti analoghi riusciranno effettivamente a cambiare lo status quo: “Questi dataset avranno un impatto positivo solo se verranno utilizzati, probabilmente insieme alle licenze per altri dati, sostituendo i lavori protetti da copyright”, afferma.
Questo articolo è apparso originariamente su Wired US.