Eseguire in autonomia compiti sul pc. E’ quanto può fare ora Claude 3.5 Sonnet, il modello di AI di Anthropic. Con il consenso degli utenti – ovviamente – Claude può navigare su internet, cliccare pulsanti e inserire testo, agendo come un “collaboratore umano”. Questa innovazione mira a semplificare attività ripetitive come la gestione del calendario e la compilazione di moduli.
Anthropic ha annunciato il rilascio dell’aggiornamento per Claude 3.5 Sonnet e un nuovo modello, Claude 3.5 Haiku.
Automatizzare la routine quotidiana
Disponibile sull’API, gli sviluppatori possono indirizzare Claude 3.5 a utilizzare i computer nel modo in cui lo fanno le persone: guardando uno schermo, spostando un cursore, facendo clic sui pulsanti e digitando il testo. Claude 3.5 Sonnet è il primo modello di intelligenza artificiale di frontiera a offrire l’uso del computer in versione beta pubblica. In questa fase, è ancora sperimentale, a volte ingombrante e soggetto a errori. Stiamo rilasciando l’uso del computer in anticipo per il feedback degli sviluppatori e prevediamo che la capacità migliorerà rapidamente nel tempo.
Mike Krieger, Chief product officer di Anthropic, spiega che l’obiettivo è quello di “automatizzare la monotonia della vita”. Attualmente, Claude può ridurre significativamente il tempo necessario per completare compiti che solitamente richiederebbero un’ora, consentendo agli utenti di concentrarsi sugli aspetti creativi e umani delle loro attività.
Questo sviluppo rappresenta l’ultimo passo della start-up di San Francisco per creare sistemi agentici, considerati il futuro della tecnologia AI. Anche altri giganti tecnologici come Microsoft e OpenAI stanno lavorando a soluzioni simili per automatizzare compiti quotidiani e generare nuove fonti di reddito.
Esempi di utilizzo pratico
Un esempio pratico di utilizzo di Claude 3.5 include la pianificazione di eventi. L’AI può trovare luoghi di interesse, calcolare i tempi di percorrenza e creare eventi nel calendario. Utilizzando schermate del computer, Claude può interpretare contenuti e interagire con il sistema, sia su Mac che su PC Windows.
Nonostante le potenzialità, Anthropic riconosce che il modello potrebbe utilizzare informazioni non affidabili dal web. La società sta esplorando l’integrazione di queste capacità su dispositivi mobili e sta lavorando per costruire un prodotto per i consumatori. Krieger paragona la tecnologia ai veicoli a guida autonoma, sottolineando che la fiducia degli utenti sarà un processo evolutivo.
Asana, Canva, Cognition, DoorDash, Replit e The Browser Company hanno già iniziato a esplorare queste possibilità, svolgendo attività che richiedono decine, e talvolta anche centinaia, di passaggi per essere completate. Ad esempio, Replit sta utilizzando le funzionalità di Claude 3.5 Sonnet con l’uso del computer e la navigazione dell’interfaccia utente per sviluppare una funzionalità chiave che valuta le app mentre vengono create per il loro prodotto Replit Agent.
Insegnare a Claude a navigare nei computer in modo responsabile
Invece di creare strumenti specifici per aiutare Claude a completare le singole attività, Anthropic gli sta insegnando competenze informatiche generali, consentendogli di utilizzare un’ampia gamma di strumenti standard e programmi software progettati per le persone. Gli sviluppatori possono utilizzare questa capacità nascente per automatizzare processi ripetitivi, creare e testare software e condurre attività aperte come la ricerca.
Per rendere possibili queste competenze generali, Anthropic ha creato un’API che consente a Claude di percepire e interagire con le interfacce dei computer. Gli sviluppatori possono integrare questa API per consentire a Claude di tradurre le istruzioni (ad esempio, “utilizzare i dati dal mio computer e online per compilare questo modulo”) in comandi del computer (ad esempio, controllare un foglio di calcolo, spostare il cursore per aprire un browser Web, navigare tra le pagine Web pertinenti, compilare un modulo con i dati di tali pagine e così via).
Su OSWorld, che valuta la capacità dei modelli di intelligenza artificiale di utilizzare i computer come fanno le persone, Claude 3.5 Sonnet ha ottenuto un punteggio del 14,9% nella categoria dei soli screenshot, notevolmente migliore del punteggio del 7,8% del secondo miglior sistema di intelligenza artificiale. Quando gli sono stati concessi più passaggi per completare l’attività, Claude ha ottenuto il 22%.
Anthropic non nasconde che l‘attuale capacità di Claude di utilizzare i computer sia imperfetta. Alcune azioni che le persone eseguono senza sforzo, come scorrere, trascinare, ingrandire, rappresentano attualmente una sfida per Claude e incoraggiamo gli sviluppatori a iniziare l’esplorazione con attività a basso rischio.
Poiché l’uso del computer può fornire un nuovo vettore per minacce più note come posta indesiderata, disinformazione o frodi, Anthropic sta adottando un approccio proattivo per promuoverne l’implementazione sicura; ha sviluppato nuovi classificatori in grado di identificare quando viene utilizzato il computer e se si verificano danni.
Per saperne di più sul processo di ricerca alla base di questa nuova abilità, insieme a ulteriori discussioni sulle misure di sicurezza: sviluppo dell’uso del computer.
Claude 3.5 Sonnet: cosa c’è di nuovo
L’aggiornamento di Claude 3.5 Sonnet mostra miglioramenti ad ampio raggio rispetto ai benchmark del settore, con guadagni particolarmente forti nella codifica agentica e nelle attività di utilizzo degli strumenti. Per quanto riguarda la codifica, migliora le prestazioni su SWE-bench Verified dal 33,4% al 49%, ottenendo un punteggio superiore a tutti i modelli disponibili pubblicamente, inclusi i modelli di ragionamento come OpenAI o1-preview e i sistemi specializzati progettati per la codifica agentica. Migliora anche le prestazioni su TAU-bench, un’attività di utilizzo di strumenti agentici, dal 62,6% al 69,2% nel settore della vendita al dettaglio e dal 36% al 46% nel settore più impegnativo delle compagnie aeree. Il nuovo Claude 3.5 Sonnet offre questi progressi allo stesso prezzo e velocità del suo predecessore.
I primi feedback dei clienti suggeriscono che l’aggiornamento di Claude 3.5 Sonnet rappresenta un salto significativo per la codifica basata sull’intelligenza artificiale. GitLab, che ha testato il modello per le attività DevSecOps, ha scoperto che fornisce un ragionamento più forte (fino al 10% nei casi d’uso) senza latenza aggiuntiva, rendendolo la scelta ideale per alimentare i processi di sviluppo software in più fasi. Cognition utilizza il nuovo Claude 3.5 Sonnet per le valutazioni autonome dell’intelligenza artificiale e ha riscontrato miglioramenti sostanziali nella codifica, nella pianificazione e nella risoluzione dei problemi rispetto alla versione precedente. The Browser Company, nell’utilizzare il modello per automatizzare i flussi di lavoro basati sul web, ha notato che Claude 3.5 Sonnet ha superato ogni modello testato in precedenza.
Nell’ambito del continuo impegno a collaborare con esperti esterni, i test congiunti pre-implementazione del nuovo modello Claude 3.5 Sonnet sono stati condotti dall’Istituto per la sicurezza dell’AI degli Stati Uniti (US AISI) e dall’Istituto per la sicurezza del Regno Unito (UK AISI).
Il futuro dell’uso del computer
L’uso del computer è un approccio completamente diverso allo sviluppo dell’intelligenza artificiale. Fino ad ora, gli sviluppatori LLM hanno adattato gli strumenti al modello, producendo ambienti personalizzati in cui le AI utilizzano strumenti appositamente progettati per completare varie attività. Ora si può adattare il modello agli strumenti: Claude può adattarsi agli ambienti informatici che tutti usiamo ogni giorno. L’obiettivo è che Claude prenda pezzi di software preesistenti e li usi semplicemente come farebbe una persona.
Anthropic ammette come ci sia ancora molto da fare. Anche se è lo stato attuale dell’arte, l’uso del computer da parte di Claude rimane lento e spesso soggetto a errori. Ci sono molte azioni che le persone fanno abitualmente con i computer che Claude non può ancora tentare. La natura “flipbook” della visualizzazione dello schermo da parte di Claude, ovvero l’acquisizione di schermate e la loro composizione, piuttosto che l’osservazione di un flusso video più granulare, significa che può perdere azioni o notifiche di breve durata..
Anthropic si attende che l’uso del computer migliorerà rapidamente per diventare più veloce, più affidabile e più utile per le attività che gli utenti desiderano completare. Diventerà anche molto più facile da implementare per coloro che hanno meno esperienza nello sviluppo di software.
Anthropic invita gli sviluppatori che vogliono provare l’uso del computer nella beta pubblica a inviare i loro feedback utilizzando questo modulo, in modo che i ricercatori possano continuare a migliorare l’utilità e la sicurezza di questa nuova funzionalità.
Claude 3.5 Haiku: lo stato dell’arte incontra l’accessibilità e la velocità
Claude 3.5 Haiku è la nuova generazione del modello più veloce di Anthropic. A parità di costo e velocità simile a Claude 3 Haiku, Claude 3.5 Haiku migliora in ogni set di abilità e supera persino Claude 3 Opus, il modello più grande della generazione precedente, in molti benchmark di intelligenza. Claude 3.5 Haiku è particolarmente forte nelle attività di codifica. Ad esempio, ha ottenuto un punteggio del 40,6% su SWE-bench Verified, superando molti agenti che utilizzano modelli all’avanguardia disponibili pubblicamente, tra cui l’originale Claude 3.5 Sonnet e GPT-4o.
Grazie alla bassa latenza, al miglioramento dell’esecuzione delle istruzioni e all’uso più accurato degli strumenti, Claude 3.5 Haiku è adatto per prodotti rivolti all’utente, attività di sub-agente specializzate e per la generazione di esperienze personalizzate da enormi volumi di dati, come la cronologia degli acquisti, i prezzi o i record di inventario.
Claude 3.5 Haiku sarà reso disponibile alla fine di ottobre attraverso l’API proprietaria, Amazon Bedrock e Vertex AI di Google Cloud, inizialmente come modello di solo testo e con input di immagini a seguire.
Conclusioni
Anthropic vede la sua missione come un guida verso il futuro dell’AI in modo centrato sull’uomo. L’obiettivo è integrare queste capacità nei propri prodotti per migliorare l’uso del computer, mantenendo sempre l’utente al centro.