top of page

Dagli Agenti AI agli Agentic Systems: 7 capacità che cambieranno il nostro approccio all'AI -- Parte 1

Aggiornamento: 9 feb


Molti di voi non se ne stanno rendendo conto ma, dietro alle 'semplici' chat AI con cui state conversando sono avvenuti, negli ultimi mesi, cambiamenti estremamente importanti. Talmente importanti che non vi fanno rendere conto che quella con cui state interagendo, molto probabilmente, non è una semplice AI generativa ma un'Agente AI.


Ma prima che vi spaventi l'idea di affrontare un argomento così avanzato, lasciatemi dire che questo articolo richiede qualche base, ma non c'è motivo di scoraggiarsi.

L'intelligenza artificiale non è una magia 'tutto e subito'; è una risorsa che ci invita a crescere e a sviluppare nuove competenze. Gli impatti che può avere sulle nostre vite personali e professionali sono troppo significativi per essere ignorati.

Prometto di essere il più chiaro possibile e di accompagnarvi passo passo in questo viaggio. Non dovete essere esperti per iniziare a scoprire come l'AI possa trasformare il vostro mondo, solo dedicare un po' di tempo a leggere questo articolo, magari un livello al giorno. Pronti a esplorare? Allora partiamo!


Livello 0 - Chat AI

Un 'semplice' LLM, come racconto qui , è il modello linguistico alla base delle moderne AI Generative. È un sistema che, riassumendo al massimo:

  1. Viene addestrato su enormi quantità di dati

  2. Subisce una fase di fine tuning, validazione, ottimizzazione

  3. Una volta pronto è in grado di:

    1. Comprendere testo, immagini, parole che forniamo in un prompt

    2. Ragionare, tramite inferenza sulle nostre richieste,

    3. Produrre un contenuto (Testo, Audio, Immagini, Video, Codice informatico)

E normalmente ci relazioniamo con lui attraverso un'interfaccia di chat sull'ormai classico ChatGPT. Di cui saprete molte cose e non ne parlerò oltre qui.




In pratica

Un buon modo per utilizzare questi assistenti è di fornire loro un ruolo o una specializzazione nel prompt iniziale per aiutarci ad avere risultati migliori. Possiamo iniziare una conversazione chiedendo alla chat di assumere il ruolo di uno scrittore, di un editor, di un lettore tipo e poi interagire con lui mentre interpreta il ruolo di quella persona. Con un bel po' di Switch Time (ovvero di tempo dedicato a spostarci tra le applicazioni) perchè dovremmo fare cose tipo

  1. nuova conversazione: "Sei uno scrittore di contenuti per l'azienda ACME, con questo tono di voce..., questo target di lettori... ecc... Produci un testo su [argomento]"

  2. Prendere l'output e iniziare una nuova conversazione con un nuovo ruolo: "Sei un editor esperto, capace di rendere fluido e scorrevole un testo, correggere errori grammaticali, di sintassi ... "

  3. Nuova conversazione con test finale "Sei un lettore del sito ACME, ami leggere cose di tipo X con stile Y, che ne pensi di questo articolo: [articolo]" E a questo punto ricominciare eventualmente da zero se il 'lettore tipo' non apprezza il contenuto.

Un sacco di manualità, rischio di errore, poca automazione.


Livello 1 - Workflow with AI

Tra le varie opportunità emerse con gli LLM, una delle prime è stata quella di inserirli in flussi di lavoro esistenti, workflow, per sfruttarne le potenzialità ed automatizzare processi, esistenti o nuovi.

In sostanza mettendo assieme un po' di codice informatico si possono ottenere situazioni in cui tutti i passaggi tra diverse fasi di un dialogo con l'AI o con altri strumenti software, si possano automatizzare.


In pratica

In questo esempio, dato un link con un articolo, si può automatizzare la creazione di post su Linkedin, Facebook, X attraverso tre conversazioni distinte, ciascuna specializzata per scrivere sui diversi social media. Evitandosi così di ripetere ogni volta i prompt iniziali.



In questo caso il modello di AI viene visto come un software esistente all'interno di un processo che, in questo caso, ha la capacità di generare del testo (che si suppone sia buono al primo colpo... argomento tutt'altro che banale).

Il processo però è chiaro, lo abbiamo deciso noi, possiamo ripeterlo 1000 volte e sarà sempre uguale, ciò che cambierà saranno l'input e l'output. E abbiamo deciso di utilizzare una piattaforma (in questo caso make.com) che orchestrasse il tutto.

Un vantaggio? non deve partire necessariamente da una richiesta utente ma potrebbe partire automaticamente a intervalli di tempo, o a seguito di azioni precedenti (es. ricevo una mail, aggiorno una riga in un foglio di calcolo ecc.)


Però...

quando abbiamo iniziato a innamorarci di ChatGPT e dei suoi simili perché avevano acquisito la capacità di parlare non ci siamo forse resi conto che stava imparando anche a fare. Ovvero iniziava a diventare non solo un generatore di dialoghi e contenuti ma un'entità in grado di eseguire azioni; diventando un Agente AI.


Livello 2 - Agenti AI

Premetto che le definizioni qui, se le cercate in internet, si sprecano: non c'è ancora una tassonomia universale. Qualcuno li vede come entità autonome in grado di agire nello spazio digitale con enormi poteri, altri li associano a semplici workflow informatici che esistono da decenni ma che hanno qualche capacità di ragionamento in più. Se volete una spiegazione 'quasi meravigliosa' di cosa siano l'ha data Anthropic di recente

Detto questo provo a dare la mia personale definizione non tecnica, che magari evolverò nel tempo:


Un Agente AI è un sistema basato su intelligenza artificiale generativa, capace di usare strumenti e dati in tempo reale, di pensare e interagire in autonomia con l’ambiente. Può farlo usando software tradizionali o altri tipi di AI per completare i compiti assegnati.



E qui arriva la parte interessante: Oltre a rispondere alla nostra richiesta (il prompt) un Agente AI può usare strumenti esterni -software o altre AI- per interagire e agire in modo completamente nuovo.

Innanzitutto, un Agente AI di Livello 2 supera la visione tradizionale dei modelli LLM, che li considerava solo generatori di testo all'interno di flussi di lavoro controllati dall'esterno.

Gli agenti di Livello 2 dispongono infatti di strumenti integrati come la ricerca sul Web, l'accesso alla memoria interna, gli interpreti di codice o i generatori di immagini.


E i diversi player hanno risposto con approcci diversi che provo a raccontarvi di seguito, molto in breve e saltando sicuramente un sacco di considerazioni. Ma vorrei essere molto pratico e far crescere la vostra consapevolezza di cosa possono fare gli agenti in parallelo ad esempi reali che possiate fare anche voi.

Utilizzando anche strumenti personalizzati che potete fornire all'agente per fare quasi tutto ciò che desiderate nel campo del software.


Livello 3 - Agenti AI dotati di strumenti personalizzati

Da quando OpenAI ha introdotto i GPT personalizzabili, possiamo collegare questi assistenti a qualsiasi tipo di software e lasciarli lavorare per noi. Gli LLM non solo capiscono cosa vogliamo, ma sanno già come interagire con software esterni tramite API (un linguaggio che permette a diversi programmi di dialogare tra loro). E così, possono tradurre i nostri intenti in azioni eseguendo chiamate a questi programmi usando il loro linguaggio.


In pratica

Guardate questo esempio: ho configurato un GPT per gestire i miei calendari. Gli chiedo quando ho degli slot liberi, lui accede a 3 calendari diversi (già collegati), cerca tra gli impegni e mi risponde con una chiarezza incredibile. Senza clic, senza fatica. E ovviamente è in grado di crearne di nuovi!



Di default i GPT di OpenAI hanno tre strumenti esterni: Ricerca su Web, Accesso a memoria interna, generazione di immagini, generatore di codice. Ma potete aggiungerne quanti ne volete. Potete sbizzarrirvi con una semplice licenza premium di ChatGPT per costruire i vostri partendo da qui, oppure esplorare un immenso catalogo di agenti già pronti.da provare gratuitamente. Ma ogni produttore ha le sue strategie.


La Memoria Ogni conversazione con un Agente AI è disponibile all'agente (ovvero sa cosa avete chiesto e cosa ha risposto). Chiamerei questa Memoria a Breve Termine. Oltre a questo ciascun Agente ha a disposizione la possibilità, tramite diversi strumenti, di avere una Memoria a Lungo Termine: ovvero un insieme di documenti che potete fornirgli e a cui farà riferimento quando necessario. Dotando un agente di accesso ad un software esterno, sia esso una ricerca su web che, come nell'esempio sopra, ad un sistema di calendari, l'agente ha disponibilità anche ad una Memoria in Tempo Reale.

Ma siamo nella situazione in cui abbiamo un UTENTE che fa una richiesta, un LLM che la elabora, decide se usare uno degli strumenti a disposizione, fornisce una risposta.


In sostanza ciascun agente ha delle istruzioni (che gli danno un ruolo e descrivono come comportarsi), accesso a diversi tipi di memoria, accesso a strumenti software configurati al suo interno.


Livello 4 - Agenti AI dotati in grado di eseguire codice

Un LLM è in grado di generare codice, ovvero di CREARE AL VOLO strumenti necessari a risolvere il compito richiesto. Su questo tema vastissimo sto portando avanti una rubrica su 01Net chiamata AI Cookbook. che vi invito a seguire se siete appassionati di coding.

Ma una cosa è scrivere codice, un'altra è eseguirlo. Bene, alcuni agenti hanno la capacità anche di eseguire, in speciali ambienti di lavoro, il codice che hanno appena generato. E questo è un grande salto evoluzionistico!


In pratica

Anthropic sta seguendo un percorso diverso tutto suo da quando ha fornito la possibilità, con Claude Sonnet 3.5, di creare degli artefatti. Ovvero del codice informatico che viene eseguito all'interno di un ambiente di lavoro disponibile nella conversazione.

Facciamo un esempio molto semplice: supponiamo di chiedere ad un LLM avere la dimostrazione che la somma dei tre angoli di un triangolo è sempre uguale a 180°. Un LLM tradizionale mi risponderebbe alla domanda con un sacco di testo più o meno semplice.

Se lo chiedo a Claude... beh, capirà che il modo migliore di risponderci è quello di creare un nuovo software che mi aiuti a comprenderlo visualmente.



Ma cosa ce ne facciamo di un codice informatico se non siamo dei tecnici? Claude è in grado anche di ESEGUIRLO come vedete cliccando qui.

(Claude non è l'unico a fornire questa possibilità ma, di nuovo, non voglio approfondire troppo per evitare rivoli molto, molto tecnici.)


Livello 5 - Agentic AI

Sì, è cambiata solo la C finale, ma questa mette assieme tutto. Combinando tutte le capacità viste fino ad ora

Fino ad ora abbiamo capito che un agente AI è in grado di generare testo o codice informatico, utilizzare strumenti che gli diamo a disposizione ed anche eseguire codice già scritto o appena generato. In modo autonomo, in base a come ritiene debba essere raggiunto il nostro scopo.

La definizione data prima ad un Agente AI è stretta dato che questi sistemi mettono assieme tutte le capacità viste fino ad ora. Quindi, cercate di vedere tutte questa capacità come fossero diverse note: A. Comprendere richieste (testuali, immagini, video, suoni) B. Accedere a memoria (Breve, Lungo, Tempo Reale) C. Produrre testo (o immagini, video, suoni) D. Produrre ragionamenti strutturati, che possono diventare processi E. Chiamare altro software (Tradizionale, o altri agenti AI) F. Produrre codice informatico G. Eseguire codice informatico

Sono 7? Bene. Quante sinfonie sono state composte ad oggi con sole 7 note? Quante soluzioni si possono produrre mettendo assieme queste 7 capacità di un sistema di Agentic AI?

Cos'è quindi un sistema di Agentic AI? Eccovi un'altra definizione (sempre personale)

Sistemi avanzati di collaborazione tra agenti AI, ciascuno dotato di strumenti software, capacità di interazione, ragionamento e memoria. Questi sistemi sono in grado di analizzare un compito assegnato, stabilire autonomamente quali strumenti utilizzare, definire il processo più efficace e coordinare le risorse disponibili per raggiungere l'obiettivo prefissato.


Prendetevi un attimo per voi ed iniziate a fantasticare.


Interazione autonoma e progettazione di flussi di lavoro

Tra le capacità viste nei livelli precedenti, mettendo assieme le stesse note, un agente AI può non solo risolvere compiti specifici ma anche progettare flussi di lavoro in modo autonomo. Questo significa che l’agente è in grado di combinare strumenti, software diversi e persino coinvolgere altri agenti AI nel processo decisionale o operativo.

Immaginate un agente AI che, per rispondere a una richiesta, analizza l’ambiente in cui si trova:

  • Identifica quali strumenti, memorie o software ha a disposizione.

  • Valuta se esistono altri agenti già configurati, ciascuno con il proprio ruolo e set di competenze.

  • Decide quali passi compiere, coinvolgendo risorse interne o esterne, e, se necessario, scrive codice informatico per creare un nuovo strumento (che a sua volta potrà essere un agente AI).

  • Mette assieme tutto in un flusso di lavoro interattivo e dedicato al compito richiesto.

Questo approccio elimina il bisogno di interventi manuali continui, trasformando l’agente in una sorta di orchestratore digitale: un sistema capace di creare connessioni dinamiche e ottimizzare processi complessi, anche in tempo reale. Che fornirà quindi una risposta molto sofisticata dopo aver eseguito un workflow creato per l’occasione.


In pratica

Riprendendo l’esempio precedente, supponiamo di chiedere a un agente AI:

“Crea un post LinkedIn per il lancio del mio articolo Perché un progetto di AI fallisce (e come evitarlo).”

L’agente, sfruttando un sistema come Autogen, genera un flusso di lavoro al volo, orchestrando diverse entità con ruoli specifici:

  1. Content Creator: L’agente principale inizia analizzando l’articolo fornito e identifica i punti chiave da comunicare. Questo agente si occupa di generare una prima bozza del post, focalizzandosi su cosa dire.

  2. Editor Agent: La bozza viene passata a un secondo agente, configurato con il ruolo di editor. Questo assistente perfeziona il testo, correggendo eventuali errori di sintassi e migliorando il tono per adattarlo a LinkedIn.

  3. Model Customer: Infine, il testo ottimizzato viene sottoposto a un terzo agente, che simula il feedback di un cliente tipo o di un lettore ideale per LinkedIn, fornendo valutazioni sull’efficacia e sulla chiarezza del messaggio.

  4. Output Finale: Una volta completati i passaggi, il workflow si conclude con la presentazione del post rifinito e pronto per la pubblicazione.

Grazie a questa struttura, il sistema combina più agenti, ognuno con una competenza specifica, decidendo il flusso di lavoro, per produrre un risultato di alta qualità senza necessità di intervento umano durante il processo.



Trovo che questa sia una delle innovazioni più potenti, veloci, e impattanti che siano mai state realizzate! Ma, come ogni grande innovazione, richiede una grande capacità di controllo. Perché? Per evitare che si manifesti il famoso problema del Paperclip Maximizer, ideato dal filosofo e scienziato Nick Bostrom.

Ecco di cosa si tratta: immaginate di progettare un'intelligenza artificiale con un compito molto semplice, ad esempio produrre graffette. Se non gestita correttamente, questa AI potrebbe perseguire il suo obiettivo con tale dedizione da consumare tutte le risorse disponibili, anche quelle vitali per noi, pur di massimizzare il numero di graffette prodotte. Potrebbe trasformare l'intero pianeta – o addirittura l'universo – in un'enorme fabbrica di graffette. Sembra assurdo, vero? Ma è un esempio estremo di ciò che può accadere quando un sistema troppo potente persegue un obiettivo senza considerare il contesto o i limiti etici. Volete provare a capire di cosa sto parlando? Ho creato un simulatore, rigorosamente utilizzando tool AI, che vi permetta di vedere il Paperclip Maximizer in azione. Dateci un'occhiata!



Quindi...

L'articolo continuerebbe... ho già scritto molto altro, ma ho deciso di spezzarlo in due parti perché mi rendo conto che, già qui ci sia molto su cui riflettere.

Le Agentic AI applications stanno correndo alla velocità della luce e molti produttori sono concentrati a realizzarle.

Non sono la panacea di tutti i problemi, non rappresentano infatti l'opzione di default per ogni interazione con gli LLM ma, sicuramente, sono una milestone importante nel percorso verso un'AI più Generale...

Nella prossima parte parlerò di capacità di ragionamento, di come coordinare questo tipo di strumenti in un'organizzazione che contempli anche noi umani, di come affrontare il concetto di agency per mantenere il controllo.

Vi suggerisco, se non lo avete già fatto, di dare un'occhiata anche al mio post sui ruoli dell'AI per prepararvi meglio.


Ci vediamo nella seconda parte.

E come sempre, godetevi l’AI responsabilmente!

Massimiliano



2件のコメント


Super!

いいね!
返信先

Grazie !

いいね!
bottom of page