Anthropic sostiene che diverse aziende stanno già testando la versione agenziale di Claude. Tra queste Canva, che lo sta utilizzando per automatizzare le attività di progettazione e modifica, e Replit, che utilizza il modello per le attività di codifica. Tra i primi utilizzatori ci sono anche The Browser Company, Asana e Notion.
Ofir Press, ricercatore post-dottorato presso l’Università di Princeton che ha contribuito allo sviluppo di SWE-bench, afferma che le IA agenziali tendono a non avere la capacità di pianificare con largo anticipo e spesso faticano a riprendersi dagli errori. “Per dimostrare la loro utilità dobbiamo ottenere prestazioni elevate su benchmark difficili e realistici“, afferma, come pianificare in modo affidabile un’ampia gamma di viaggi per un fruitore e prenotare tutti i biglietti necessari.
Kaplan osserva che Claude è già in grado di risolvere alcuni errori in modo sorprendente. Quando si è trovato di fronte a un errore del terminale nel tentativo di avviare un server web, per esempio, il modello ha saputo rivedere il autorità per risolvere il problema. Ha anche capito che doveva abilitare i popup quando si trovava in un vicolo cieco durante la navigazione sul web.
Molte aziende tecnologiche sono ora in corsa per sviluppare agenti di intelligenza artificiale, alla esame di quote di mercato e di notorietà. Microsoft, che ha investito circa 13 miliardi di dollari in OpenAI, ha dichiarato che sta testando agenti in grado di utilizzare i computer Windows. Amazon, che ha investito molto in Anthropic, sta esplorando il modo in cui gli agenti potrebbero consigliare ed eventualmente acquistare beni per i suoi clienti.
Sonya Huang, partner della società di venture Sequoia che si occupa di aziende di IA, sostiene che, nonostante l’entusiasmo per gli agenti di IA, la maggior parte delle aziende si sta limitando a ribattezzare gli strumenti di IA. Parlando con Wired prima della notizia di Anthropic, aveva dichiarato che la tecnologia funziona migliore quando viene applicata in ambiti ristretti, come il lavoro di codifica. “È necessario scegliere spazi problematici in cui se il modello fallisce, va bene“, ha detto. “Questi sono gli spazi problematici in cui sorgeranno le aziende veramente native dell’agente”.
Una delle sfide principali dell’IA agenziale è che gli errori possono essere molto più problematici di una risposta confusa del chatbot. Anthropic ha imposto alcuni vincoli su ciò che Claude può fare, ad esempio limitando la sua capacità di utilizzare la carta di credito di una persona per acquistare prodotti.
Se si riuscirà a scongiurare gli errori in modo sufficientemente efficace, secondo Press dell’Università di Princeton, gli utenti potrebbero imparare a vedere l’IA e i computer in un modo assolutamente nuovo: “Sono entusiasta di questa nuova era“, dice.
Questo articolo è apparso originariamente su Wired US.
Leggi tutto su www.wired.it
di Will Knight www.wired.it 2024-10-23 16:42:00 ,