//Come funziona ChatGPT?

12 mag 2023
Tempo di lettura: 6 min

Aggiornamento: 20 mar 2024

Se scrivessi, come introduzione, che ChatGPT si basa su un LLM addestrato con RHLF, lo farei con l’obiettivo di perdere da subito il 98% dei lettori non tecnici.

Dovrò pensare a qualcos'altro :-)

Ma è stato proprio un articolo che iniziava così a farmi venire l’idea di scrivere questo blog.

Viviamo in un mondo in cui è sempre più importante che chi è diversamente informatico comprenda almeno i concetti fondanti di alcune tecnologie che gli stanno plasmando la vita.

Veniamo al clamore derivato da Chat GPT, tutte le sue derivazioni, i sistemi simili e antagonisti, che magari in questo post chiameremo, volendo fare di tutta un’erba un fascio, “AI Generative” (Anche se penserete tutti a ChatGPT e basta per ora).

Partiamo provando a pensare al contrario: se un'AI Generativa potesse intervistare tutti gli utenti che lo hanno utilizzato chiedendo loro:

Cosa vi piace di me? 
Cosa vi stupisce?
Cosa non vi piace?

Quali risposte otterrebbero? Le più varie sicuramente. Ma lui le sintetizzerebbe tutte con grande velocità e naturalezza per avere una risposta unitaria e significativamente utile per progredire. E probabilmente sintetizzerebbe queste risposte:

CHAT: Cosa vi piace di me? 
UMANI: Rispondi a tutte le domande che ti facciamo con velocità e naturalezza.

CHAT: Cosa vi stupisce?
UMANI: Che capisci davvero quello che ti stiamo dicendo, anche se quando hai le allucinazioni un po' ci fai paura un po' ci sei simpatico perché sembri più umano. 

CHAT: Cosa non vi piace?
UMANI: Che sembri quel nostro cugino che sa sempre tutto anche se non è vero.

Siete d’accordo?

Personalmente parlando ciò che mi stupisce è la loro capacità di interpretare il linguaggio umano, di analizzare in pochissimo tempo un testo mastodontico e riassumerlo, di saper leggere dietro le righe e spiegarmi in dettaglio cose che avrebbero richiesto a me un’analisi molto più dettagliata, lunga e precisa. Analisi che avrei potuto fare solo essendo molto competente nella materia del testo analizzato.

Vorrei spiegare però prima di tutto che “Le AI Generative” non COMPRENDONO ma CAPISCONO quello che scriviamo nei PROMPT, nelle richieste che gli facciamo.

La comprensione è un progetto tutto umano che include nelle valutazioni anche le emozioni, la lettura del momento, la contestualizzazione con la propria fase di vita. E, per ora, di questo possiamo star sicuri: le AI Generative non ci possono arrivare. Ma lasciamo stare la filosofia e torniamo alla realtà.

Provo allora a spiegare come funziona una “AI Generativa” come Chat GPT senza entrare troppo nel tecnico (Magari lo farò in un nuovo post in cui spiegherò la differenza tra Google Bard e Chat GPT, tra la Chat ed il modello che c'è dietro).

GPT è un modello matematico addestrato per predirre la parola successiva in una frase, basandosi sulle precedenti.

All’INPUT:

Il Gatto è seduto …

Corrisponderà facilmente l’OUTPUT

-> sulla sedia

Perché nell’addestramento del modello sono stati forniti testi scritti da umani che descrivevano i felini in questione.

GPT cerca tra questi testi la parola, o le parole, che più frequentemente appaiono in successione all’INPUT e poi assegna a ciascuna la probabilità che generino una frase PER NOI SENSATA, e ci propone il risultato.

Ma anche se chiediamo a GPT

“Cos’è un Gatto?”

e se lui ci risponderà

-> “Un felino predatore con pelo e artigli.”

non avrà in realtà nessuna idea di cosa sia. Non potrà comprendere il concetto del nostro animale da compagnia nemmeno quando lo individuerà in un’immagine. Saprà soltanto che a determinate sequenze di caratteri (nel testo) o numeri (i pixel delle immagini) corrisponde una cosa che noi gli abbiamo spiegato chiamarsi GATTO.

Fornendo a questo algoritmo qualcosa come decine miliardi di frasi prese da archivi digitali è facile immaginare come questo sia in grado di capire più o meno qualunque concetto dello scibile umano e fornire risposte coerenti.

La complessità e la magnificenza degli algoritmi di deep learning unite ad una disponibilità di dati digitali senza presenti e alle incredibili potenze di calcolo disponibili hanno reso esponenziale la possibilità di ‘addestrare’ algoritmi sempre più complessi.

Il cugino insopportabile

Ma sappiamo che a GPT possiamo fornire delle richieste (PROMPT) molto più lunghe e complesse e che lui tende sempre a dare risposte ben più lunghe, articolate e a volte eccessivamente prolisse.

Vediamo cosa succede davvero, ho chiesto a Chat GPT:

Cos'è un gatto?

E mi ha risposto

-> Un gatto è un piccolo mammifero carnivoro che è spesso tenuto come animale domestico. I gatti domestici sono noti per la loro agilità e grazia. Hanno un corpo flessibile e acuto senso dell'equilibrio, che li rende abili cacciatori. I gatti hanno anche un senso dell'udito molto acuto, e sono in grado di sentire una gamma di suoni molto più ampia rispetto agli esseri umani.

I gatti domestici, o "Felis catus", appartengono alla famiglia dei Felidae, che include anche grandi felini come leoni, tigri, leopardi e pantere. Ci sono molte razze diverse di gatti, con diverse combinazioni di colori e tipi di pelliccia.

I gatti sono noti per essere indipendenti, ma possono anche formare legami stretti e affettuosi con i loro proprietari. Sono noti anche per il loro comportamento di "ronzio", che è un modo per esprimere il loro comfort e contentezza.

Alcuni gatti possono vivere fino a 20 anni o più, anche se l'aspettativa di vita media è di circa 15 anni.

Scatenando in me la reazione emotiva del cugino saccente e insopportabile. Volevo solo sapere cosa fosse...

Perché? L’algoritmo è RICORSIVO, ovvero viene eseguito più volte ogni volta mettendo assieme la domanda e le parti di risposta che lui sta generando fino ad ottenerne una finale che, probabilmente, assomiglierà ad una risposta che un UMANO sarà disposto ad accettare.

Il gatto è seduto -> … sulla sedia
Il gatto è seduto sulla sedia -> … vicino alla finestra
Il gatto è seduto sulla sedia vicino alla finestra -> … con la coda che si muove lentamente avanti e indietro

Eccetera… Finché non arriverà ad una “Stop condition” ovvero ad un risultato che potrebbe andar bene a noi.

Ma come può decidere di generare le parole “sulla sedia” ?

Perché cercherà nei dati che gli sono forniti tutte le frasi che contengono “Il gatto è seduto sulla sedia…”, e troverà ad esempio tre prosecuzioni diverse

… vicino alla finestra
… a dormire
… riempendola di pelo

A ciascuna assegnerà una percentuale di probabiltà di ‘interesse’, lancerà un dado per generare un po’ di confusione e sceglierà “… vicino alla finestra” perché sarà quella probabilmente più interessante per noi.

… vicino alla finestra 85%
… a dormire            84%
… riempendola di pelo  12%

NB. Chiedo scusa a tutti i team di programmatori, scienzati, teorici matematici e guru che hanno sviluppato gli algoritmi di Deep Learning per questa semplificazione estrema.

Quindi…

Ricapitolando quindi: un LLM (Large Language Model) è un’AI che è stata addestrata su grandi quantità di dati linguistici e ha imparato a generare parole e frasi che possono sembrare di senso compiuto per motivi statistici, ma non ha una comprensione reale del significato di ciò che sta producendo.

Questi sistemi utilizzano tecniche di elaborazione del linguaggio naturale, come l'analisi semantica, la sintassi e la morfologia, per generare frasi grammaticalmente corrette e coerenti con il contesto in cui si trovano. Tuttavia, l'AI non comprende realmente il significato delle parole e delle frasi che sta producendo come lo farebbe un essere umano, ma si basa solo su una vasta quantità di dati per produrre risultati accettabili.

In altre parole, può produrre frasi che sembrano di senso compiuto perché ha imparato dalle enormi quantità di dati linguistici a cui è stata esposta, ma non ha una comprensione reale del significato di ciò che sta producendo. Al contrario, gli esseri umani hanno la capacità di comprendere il significato delle parole e delle frasi in modo più profondo e di ragionare in modo critico sul loro significato e sul contesto in cui si trovano.

Tuttavia... il risultato che producono è straordinariamente sensato per noi. E questo le rende estremamente utili a prescindere dalla modalità con cui hanno generato il contesto.

PS. Ma cosa vuol dire GPT?

Per concludere, un po’ di cultura nerd. Cosa significa la sigla GPT ?

GPT sta per Generative Pretrained Transformer

Generative - perché è in grado di generare la parola successiva
Pretrained - perché è stato preaddestrato su molto testo proveniente dall'Internet ed è quindi pronto a rispondere alle domande
Transformer - perché la rete neurale profonda sottostante utilizza un particolare tipo di architettura di rete, un modello, chiamato Transformer.