Comprendere gli LLM: la tecnologia chiave dietro ChatGPT

Un recente tweet di Andrej Karpathy mi ha fatto riflettere sul fatto che non parlo da un po' dei Large Language Model (LLM). Inoltre, nei workshop recenti ho capito che è importante dedicare più tempo a spiegare cosa siano i Language Model, sia grandi (LLM) che piccoli (SLM) perchè sono la base per comprendere meglio l'AI Generativa.

Uno dei miei principi sull'AI è che “per comprenderla davvero, bisogna prima capirla (e magari provarla)”. Quindi, voglio semplificare e spiegare cos'è un modello di linguaggio e perché è così rilevante, soprattutto ora che parliamo di multimodalità, cioè la capacità di un modello di elaborare simultaneamente diversi tipi di input, come testo, immagini e suoni.

Cos'è un Language Model (LM)?

Un LM (Language Model) è un modello di intelligenza artificiale che lavora con il linguaggio. Come funziona? Ad esempio, se forniamo al modello una frase come "Oggi è una bella", il modello potrebbe completarla con la parola "giornata" basandosi sul contesto delle parole precedenti. Prende le parole che gli forniamo e le trasforma in token, piccoli pezzi di informazione (come singole parole o parti di esse). A partire da questi token e un input, il modello cerca di prevedere i token successivi basandosi su quanto ha appreso.

Immaginate di raccontare una storia e fermarvi a metà frase: un modello di linguaggio cerca di prevedere la parola successiva tenendo conto di tutte quelle precedenti, proprio come facciamo noi.

I modelli di linguaggio più noti oggi si basano sull'architettura dei Transformers, che utilizza un meccanismo di attenzione per comprendere meglio il contesto e le relazioni tra le parole. Questi modelli sono autoregressivi, cioè generano un token alla volta, utilizzando quello appena previsto per creare il prossimo.

Questo processo non si ferma alle parole: se riusciamo a trasformare qualsiasi problema in una sequenza di token, il modello può aiutarci a risolverlo. Questo è alla base di molte applicazioni di intelligenza artificiale generativa.

Cos'è un LLM?

Se utilizziamo molti dati (paragonabili a milioni o miliardi di libri) per addestrare un LM, otteniamo un LLM (“Large” Language Model). Un LLM è un modello di linguaggio con un numero estremamente elevato di parametri, nell'ordine delle centinaia di miliardi, addestrato su un enorme corpus di dati, che gli consente di comprendere testi complessi, fare riassunti, tradurre, eseguire passaggi logici e molto altro. Alcuni esempi di LLM sono GPT-4 di OpenAI, Gemini 1.5 di Google, Claude 3 di Anthropic, tra gli altri.

Questi modelli sono molto grandi e richiedono data center potenti e GPU avanzate per funzionare. Tuttavia, esistono anche versioni più piccole, i cosiddetti SLM (Small Language Models), che rappresentano una versione ridotta degli LLM. Questi modelli sono più leggeri e possono essere eseguiti su dispositivi meno potenti, come computer o smartphone, sacrificando però precisione e conoscenza. Ne parlo qui: Perché le AI personali cambieranno tutto.

Gli LLM si occupano solo di parole?

No, c'è molto di più. Gli LLM non si limitano a elaborare il testo. Se possiamo ridurre il nostro problema a una sequenza di token, indipendentemente dal tipo di dati (testo, numeri, simboli), possiamo affidarlo a un LLM. Questo è un concetto fondamentale che può cambiare il modo in cui vediamo l'uso degli LLM nelle nostre attività.

🔴 La Pillola Rossa: per chi vuole andare sul tecnico

Nel mondo tecnico, un token è la più piccola unità di significato che un modello di linguaggio capisce. Può essere una parola, una parte di parola o un simbolo (come numeri, codici o elementi chimici). Gli LLM funzionano attraverso la predizione del prossimo token: leggono una sequenza di token e cercano di prevedere quale sarà il prossimo. Se possiamo scomporre qualsiasi problema in una sequenza di token da interpretare, possiamo applicare un LLM per risolverlo.

Per fare ciò, "addestriamo" il modello a comprendere quei token. Questo significa che gli LLM possono lavorare su qualsiasi problema, finché riusciamo a tradurlo in una sequenza di token discreti. Da qui nasce l'idea della convergenza di molti problemi in questo paradigma: la vera sfida non sta più nel tipo di problema, ma nel vocabolario dei token utilizzati e nel loro significato nel contesto specifico.

🔵 La Pillola Blu: versione non tecnica

Se la parte tecnica vi ha fatto venire mal di testa, immaginate che un LLM sia come un bravo traduttore che cerca di completare una sequenza di parole, simboli o numeri, indipendentemente dal contenuto. Se il problema può essere descritto come una sequenza accompagnata da un testo descrittivo, l'LLM può aiutarvi a risolverlo.

Il cuore del discorso: la previsione del prossimo token

Un LLM si concentra sulla previsione del prossimo token. Tuttavia, la chiave sta nel significato dei token: possono essere parole, numeri, simboli chimici o altri tipi di dati. Un LLM può essere utilizzato per qualsiasi tipo di problema rappresentabile come una sequenza di informazioni, in base al contesto e alla conoscenza che ha appreso.

Ma allora perché si chiama “Language” Model?

Il nome deriva dal fatto che questi modelli sono stati inizialmente sviluppati per lavorare con il linguaggio naturale. Solo successivamente si è capito che la stessa tecnologia poteva essere applicata anche ad altre aree. Da qui la nascita dei Multimodal Language Model, modelli addestrati su testi, immagini, suoni, e capaci di ragionare su più tipi di contenuti contemporaneamente.

Come spiegato da Andrej Karpathy, un nome più adatto per questi modelli sarebbe Autoregressive Transformers, ma è sicuramente meno intuitivo.

ChatGPT è un LLM?

No! ChatGPT è l'interfaccia che OpenAI ha sviluppato per permettervi di chattare con un LLM come GPT-4 o GPT-4-mini (la versione Small). È questa interfaccia che si occupa anche di fornire al modello risultati di ricerche su internet e molte altre funzionalità offerte da questa applicazione. Allo stesso modo, Claude è l'applicazione che vi permette di utilizzare i modelli di Anthropic come Sonnet o Opus.

Quindi...

Gli LLM non si limitano a generare testo: possono modellare qualsiasi tipo di flusso di dati e relazionarlo al linguaggio. Questo significa che il loro utilizzo va oltre la semplice creazione di contenuti, diventando uno strumento per prevedere, collegare e automatizzare processi complessi basati su dati di vario tipo.

Oggi questa tecnologia ci permette di interagire con l'AI utilizzando contenuti diversi, come testo, immagini o voce, senza la necessità di conversioni complicate. Ad esempio, è possibile caricare un'immagine di un oggetto e chiedere all'AI di descriverlo, oppure fornire una descrizione vocale e ottenere una risposta scritta. La crescente maturità degli LLM ci dimostrerà che è possibile risolvere una miriade di problemi semplicemente azzeccando il prossimo token. Andrej conclude chiedendosi che ne sarà di tutti i framework di deep learning attuali dato che tutto sta convergendo su queste tecnologie e -lasciatemi aggiungere- nonostante siamo in una fase ancora immatura dell'AI generativa e, di certo, ancora molto lontana dall’idea di un'Intelligenza Artificiale Generale (AGI).