Anthropic, la sua AI può prendere il controllo di un computer

Claude è il primo grande modello di intelligenza artificiale in grado di prendere il controllo di un computer per eseguire operazioni come ricerca sul web, apertura di app e inserimento di testo
L'intelligenza artificiale può ora prendere il controllo di un computer
L'intelligenza artificiale può ora prendere il controllo di un computerPhoto-Illustration: WIRED Staff/Getty Images

C'è voluto un po' di tempo prima che le persone si abituassero all'idea di chatbot che sembrano avere una mente propria. Il prossimo salto nell'ignoto potrebbe essere quello di affidare all'intelligenza artificiale anche il controllo dei nostri computer.

Anthropic, un concorrente di alto livello di OpenAI, ha annunciato di aver insegnato al suo modello di intelligenza artificiale Claude a eseguire una serie di operazioni su un computer, tra cui la ricerca sul web, l'apertura di applicazioni e l'inserimento di testo con il mouse e la tastiera.

"Stiamo per entrare in una nuova era in cui un modello può utilizzare tutti gli strumenti come fanno le persone per svolgere i propri compiti", afferma Jared Kaplan, responsabile scientifico di Anthropic e professore associato alla Johns Hopkins University.

Kaplan ha mostrato a Wired una demo preregistrata in cui a una versione “agenziale” di Claude è stato chiesto di aiutare a pianificare una gita per vedere l'alba al Golden Gate Bridge con un amico. In risposta alla richiesta, Claude ha aperto il browser web Chrome, ha cercato informazioni pertinenti su Google, tra cui il punto di osservazione ideale e l'ora ottimale per essere lì, quindi ha usato un'applicazione calendario per creare un evento da condividere con un amico. (Non sono state fornite ulteriori istruzioni, come ad esempio il percorso da seguire per arrivare a destinazione nel minor tempo possibile).

In una seconda dimostrazione, a Claude è stato chiesto di costruire un semplice sito web per promuoversi. In un momento, il modello ha inserito una richiesta di testo nella propria interfaccia web per generare il codice necessario. Ha quindi utilizzato Visual Studio Code, un popolare editor di codice sviluppato da Microsoft, per scrivere un sito web e ha aperto un terminale di testo per avviare un server web per testare il sito. Il sito offriva una pagina di destinazione decente, a tema anni '90, per il modello di intelligenza artificiale. Quando l'utente gli ha chiesto di risolvere un problema sul sito web risultante, il modello è tornato all'editor, ha identificato il frammento di codice incriminato e lo ha cancellato.

Mike Krieger, chief product officer di Anthropic, afferma che l'azienda spera che i cosiddetti agenti AI possano automatizzare le attività di routine in ufficio e liberare le persone per renderle più produttive in altri settori. "Cosa fareste se vi liberaste di un mucchio di ore di copia e incolla o di qualsiasi altra cosa finiate per fare?", afferma. "Andrei a suonare di più la chitarra".

Anthropic rende disponibili le capacità agenziali attraverso l'interfaccia di programmazione delle app (API) per il suo più potente modello linguistico multimodale, Claude 3.5 Sonnet, a partire da oggi. L'azienda ha annunciato anche una versione nuova e migliorata di un modello più piccolo, Claude 3.5 Haiku.

Le dimostrazioni di agenti AI possono sembrare sbalorditive, ma far sì che la tecnologia funzioni in modo affidabile e senza errori fastidiosi (o costosi) nella vita reale può essere una sfida. I modelli attuali sono in grado di rispondere a domande e conversare con un'abilità quasi umana e sono la spina dorsale di chatbot come ChatGPT di OpenAI e Gemini di Google. Sono anche in grado di eseguire compiti al computer quando viene loro impartito un semplice comando, accedendo allo schermo del computer e a dispositivi di input come tastiera e trackpad, oppure attraverso interfacce software di basso livello.

Anthropic afferma che Claude supera altri agenti di intelligenza artificiale in diversi benchmark chiave, tra cui SWE-bench, che misura le capacità di sviluppo del software di un agente, e OSWorld, che misura la capacità di utilizzare un sistema operativo per computer. Affermazioni che nono sono ancora state verificate in modo indipendente. Anthropic afferma che Claude esegue correttamente i compiti in OSWorld il 14,9% delle volte. Si tratta di un risultato nettamente inferiore a quello degli esseri umani, che in genere si aggirano intorno al 75%, ma notevolmente superiore a quello dei migliori agenti attuali, tra cui GPT-4 di OpenAI, che ha successo circa il 7,7% delle volte.

Anthropic sostiene che diverse aziende stanno già testando la versione agenziale di Claude. Tra queste Canva, che lo sta utilizzando per automatizzare le attività di progettazione e modifica, e Replit, che utilizza il modello per le attività di codifica. Tra i primi utilizzatori ci sono anche The Browser Company, Asana e Notion.

Ofir Press, ricercatore post-dottorato presso l'Università di Princeton che ha contribuito allo sviluppo di SWE-bench, afferma che le IA agenziali tendono a non avere la capacità di pianificare con largo anticipo e spesso faticano a riprendersi dagli errori. "Per dimostrare la loro utilità dobbiamo ottenere prestazioni elevate su benchmark difficili e realistici", afferma, come pianificare in modo affidabile un'ampia gamma di viaggi per un utente e prenotare tutti i biglietti necessari.

Kaplan osserva che Claude è già in grado di risolvere alcuni errori in modo sorprendente. Quando si è trovato di fronte a un errore del terminale nel tentativo di avviare un server web, per esempio, il modello ha saputo rivedere il comando per risolvere il problema. Ha anche capito che doveva abilitare i popup quando si trovava in un vicolo cieco durante la navigazione sul web.

Molte aziende tecnologiche sono ora in corsa per sviluppare agenti di intelligenza artificiale, alla ricerca di quote di mercato e di notorietà. Microsoft, che ha investito circa 13 miliardi di dollari in OpenAI, ha dichiarato che sta testando agenti in grado di utilizzare i computer Windows. Amazon, che ha investito molto in Anthropic, sta esplorando il modo in cui gli agenti potrebbero consigliare ed eventualmente acquistare beni per i suoi clienti.

Sonya Huang, partner della società di venture Sequoia che si occupa di aziende di IA, sostiene che, nonostante l'entusiasmo per gli agenti di IA, la maggior parte delle aziende si sta limitando a ribattezzare gli strumenti di IA. Parlando con Wired prima della notizia di Anthropic, aveva dichiarato che la tecnologia funziona meglio quando viene applicata in ambiti ristretti, come il lavoro di codifica. "È necessario scegliere spazi problematici in cui se il modello fallisce, va bene", ha detto. "Questi sono gli spazi problematici in cui sorgeranno le aziende veramente native dell'agente".

Una delle sfide principali dell'IA agenziale è che gli errori possono essere molto più problematici di una risposta confusa del chatbot. Anthropic ha imposto alcuni vincoli su ciò che Claude può fare, ad esempio limitando la sua capacità di utilizzare la carta di credito di una persona per acquistare prodotti.

Se si riuscirà a evitare gli errori in modo sufficientemente efficace, secondo Press dell'Università di Princeton, gli utenti potrebbero imparare a vedere l'IA e i computer in un modo completamente nuovo: "Sono entusiasta di questa nuova era", dice.

Questo articolo è apparso originariamente su Wired US.