L'AI ha incontrato un altro muro. E l'ha infranto.

Le scaling laws e la corsa contro il tempo

Trovate frasi di questo tipo ovunque negli ultimi mesi:

"L'AI ha trovato un muro invalicabile davanti. Non crescerà più!"

"Stiamo raggiungendo i limiti di scala dell'intelligenza artificiale?"

"Le attuali leggi di scalabilità dell'intelligenza artificiale mostrano rendimenti decrescenti"

E poi, ogni volta, succede qualcosa che ci fa cambiare idea.

Quello dei limiti è un problema vecchio come l'AI, ne avevo parlato anche in Glimpse, il mio romanzo del 2020, suggerendo modalità che troverà da sola per sopravvivere (e che potrebbero inquietare qualcuno). Ma questa AI è davvero giunta al limite? Mah...

Attenzione: il post contiene acronimi, gergo tecnico ed altri contenuti che potrebbero spaventare le menti più sensibili. Ma vi invito a procedere comunque: ho cercato di scrivere nel modo più semplice possibile e ho creato un glossario di ogni termine strano a fine articolo.

Il problema

Sembrava (con ragionevole certezza) che non fosse più possibile ottenere migliori capacità di ragionamento da un LLM, semplicemente aggiungendo dati in ingresso, creando modelli più grandi o aumentando la potenza di calcolo. Fino a qualche mese fa questa "legge di scalabilità", se applicata all'AI Generativa, aveva alimentato grandi speranze ma poi, quando ci siamo resi conto di "aver finito i dati" sembrava non fosse più possibile ottenere miglioramenti, sembrava che il crescere della potenza di calcolo da solo non fosse sufficiente a migliorare le performance dei modelli che, come ho scritto qualche tempo fa, sta procedendo a velocità iperesponenziali.

Negli ultimi 50 anni la crescita del progresso tecnologico è stata ritmata dalla Legge di Moore: "Ogni due anni la densità dei transistor raddoppia (a parità di costo)". Significa che le performance di una tecnologia raddoppiano ogni due anni. Una bella crescita lineare che ci ha permesso molte evoluzioni e che tocchiamo ogni giorno con mano

Le Scaling Laws introducono il concetto che, tramite miglioramenti e ottimizzazioni, che vedremo a breve, questo raddoppio, almeno per ciò che riguarda i modelli LLM, diventi qualcosa tipo "le performance raddoppiano ogni 6 mesi anziché ogni 2 anni". E ci siamo resi conto che non sono più la sola forza bruta nella capacità di calcolo o l'enorme quantità di dati dati in pasto ad un algoritmo a determinare il miglioramento delle performance.

Cosa sono le leggi di scalabilità - Scaling Laws?

Le scaling laws sono delle regole empiriche (che derivano da osservazioni sperimentali e non da principi teorici) che ci dicono che le prestazioni di un sistema migliorano all'aumentare delle risorse impiegate. Nel caso dei modelli di AI Generativa aiutano a prevedere come l'incremento di parametri, dati o potenza di calcolo, influisca sulla precisione, la capacità di ragionamento e l'efficienza del modello: la sua performance.

Jensen Huang che parla di Scaling Laws a Gennaio 2025

Una prima legge di scalabilità è legata al PRE-TRAINING del modello e spiega come, all'aumentare del numero di dati, alla potenza di calcolo usata, e alla quantità di token finali del modello, aumenteranno le sue performance. Ed è qui che si dice che OpenAI (e gli altri competitor) abbiano sbattuto contro un muro. Si è arrivati ad un punto oltre il quale non era più possibile migliorare le performance aumentando questi parametri. Per chi volesse approfondire: qui trovate l'origine del ragionamento .

La seconda legge si manifesta dopo l'addestramento: "POST-TRAINING SCALING" è quella in cui si possono migliorare le prestazioni DOPO che il modello è stato addestrato, senza investire nella creazione di modelli più grandi, semplicemente raffinandolo e ottimizzandolo.

È un po' come un master post laurea: dopo un'intensa fase di addestramento si forniscono gli elementi utili per affrontare il mondo un po' più in pratica senza richiedere che lo studente si laurei prima in altre discipline.

Per i più esigenti nella fase di post-training, un modello viene sottoposto a fine tuning, al Reinforcement Learning con Feedback Umano (RLHF) e ad altre tecniche di ottimizzazione e compressione del modello come pruning e compressione. È qui che DeepSeek ha fatto clamore mostrando come, modificando le fasi di post-training, sia possibile avere modelli più snelli (quindi più economici da produrre e far funzionare) e potenti.

La terza legge arriva utilizzando il modello, ovvero quando viene inserito un prompt e, date le risorse computazionali sufficienti, si cerca di spiegarsi bene per ottenere un risultato migliore.

E qui parliamo di "TEST-TIME SCALING", ovvero quando si cerca di far "ragionare il modello" attraverso prompt estremamente precisi e specifici.

Per spiegarvelo è doveroso citare un antefatto, Nel 2022, più precisamente il 28 gennaio, questo paper raccontava come spremere al massimo un LLM ben prima che il mondo si accorgesse dell'esistenza di GPT-3 e che nascesse ChatGPT con GPT-3.5. E presentava una tecnica che si chiama COT: Chain-of-Thought prompting che prevede di far eseguire ad un modello una catena di pensieri prima di dare la soluzione. Questa, assieme ad altre tecniche di prompting che trovate in questo splendido sito, si è rivelata essere una delle più promettenti per ottenere migliori performance da un modello facendogli spendere un bel po' di tempo in più nel preparare la risposta.

Poi a settembre 2024 OpenAI ha rilasciato i modelli O1, una nuova serie di LLM che, pur condividendo la stessa architettura dei modelli GPT, attivavano in autonomia una nuova fase, quella del "ragionamento" (Che è tra virgolette per non offendere i più puristi che lo vedono possibile solo in ambito umano), incorporando nel modello stesso lo scatenarsi di una COT a fronte della richiesta (prompt) dell'utente.

Questo espediente ha aumentato di molto le performance dei modelli che ragionano senza richiedere che, al netto di un minimo di tecnica, l'utente sia un esperto in prompt engineering

L'introduzione di O1-Preview prima, di O1 e O1Pro a dicembre, unitamente ai nuovi modelli O3-mini e O3-mini-high in parallelo all'avvento di Deepseek, dei modelli Gemini Flash Thinking, di Grok 3 e di una coda che si va via via formando, ha fatto si che oggi ci troviamo davanti ad un nuovo set di modelli in grado di ragionare automaticamente prima di darci una risposta. E questo, come ho raccontato qui, aumenta in modo importante le performance dei modelli, generando un'ulteriore accelerazione della fase di TEST-TIME, aprendo l'ennesima breccia nell'ennesimo muro.

Piccolo problema: far ragionare a lungo un modello ha un costo più elevato in termini computazionali e di risparmio energetico e questo si riflette in un aumento (a volte importante) del numero di token in uscita, i più costosi. Quindi capire quando usare "un modello che pensa" inizia a diventare un'attività complessa.

OpenAI ha annunciato nei giorni scorsi che l'attesissimo GPT-5 sarà un LLM che 'deciderà autonomamente' quando sarà necessario pensare prima di rispondere o, come una volta, rispondere in prima battuta. Creando un po' di mal di testa a chi dovrà fare prompt decenti.

Quindi...

A me non piace molto l'idea che sia necessario iperaccelerare a tutti i costi.

Sono convinto che anche se l'AI Generativa smettesse di accelerare risciremmo comunque a trarne un sacco di vantaggio con tutte quello che è stato rilasciato in questi due anni.

Abbiamo anni di lavoro davanti solo per scoprire cosa si possa davvero fare con questi modelli e siamo umani: ci serve tempo per assimilare le novità.

Ma non credo che questo rallentamento avverrà.

Anche questo muro è stato infranto e qualche milione di person sta cercando di capire come trarne vantaggio.

A presto!

Massimiliano

P.s. se questo articolo ti è piaciuto condividilo. Scopri di più su Linkedin o su maxturazzini.com

Ecco il glossario

(gentilmente offerto da GPT 4o)

Termine	Definizione Chiara e Accessibile
AI Generativa	Tipo di intelligenza artificiale che crea contenuti originali (testi, immagini, musica, video) basandosi su ciò che ha imparato da grandi quantità di dati.
LLM (Large Language Model)	Modello AI addestrato su enormi quantità di testo per generare risposte coerenti e contestualizzate. Più grande è il modello, più dati e potenza di calcolo servono.
Scaling Laws (Leggi di Scalabilità)	Regole empiriche che descrivono come aumentare le risorse (dati, parametri, calcolo) migliori le prestazioni di un modello AI. Si dividono in tre fasi: pre-training, post-training e test-time.
Pre-training Scaling	La fase iniziale in cui il modello viene addestrato con enormi quantità di dati e potenza computazionale per imparare schemi e relazioni tra parole.
Post-training Scaling	Ottimizzazioni successive al pre-training, tra cui fine-tuning, RLHF (feedback umano), pruning (riduzione di parametri inutili) e altre tecniche per migliorare efficienza e prestazioni.
Test-time Scaling	Strategie per migliorare le prestazioni mentre il modello è in uso, attraverso tecniche di prompting, miglioramenti hardware (GPU, TPU), quantizzazione e gestione dinamica delle risorse.
Fine-tuning	Personalizzazione di un modello AI già addestrato per specifici compiti o settori, senza doverlo riaddestrare da zero.
RLHF (Reinforcement Learning with Human Feedback)	Tecnica in cui gli esseri umani valutano le risposte dell’AI, aiutandola a capire quali sono più utili e accurate.
Prompt	La richiesta testuale che facciamo al modello AI. Un buon prompt può migliorare notevolmente la qualità della risposta.
Prompt Engineering	L’arte di scrivere prompt ottimizzati per ottenere risposte migliori dai modelli AI.
COT (Chain-of-Thought) Prompting	Tecnica di prompting che fa ragionare il modello passo dopo passo prima di rispondere, migliorando accuratezza e complessità delle risposte.
Token	Unità base di testo elaborata da un LLM. Può essere una parola, un pezzo di parola o un carattere. Più token usati, più il costo computazionale aumenta.
Quantizzazione	Tecnica per ridurre la precisione numerica del modello AI, diminuendo il consumo di memoria e migliorando l’efficienza senza sacrificare troppo le prestazioni. (Nota: questo termine non c'è nell'articolo ma... già che siete qui è bene saperlo 😊😊)
Pruning	Rimozione selettiva di parti del modello per renderlo più leggero ed efficiente, eliminando parametri poco utili.
Allocazione dinamica delle risorse	Strategie adottate dai modelli AI per decidere quanta potenza computazionale usare in base alla complessità del compito. GPT-5, ha dichiarato OpenAI, regolerà autonomamente il livello di "ragionamento" necessario.
Attenzione adattiva	Metodo in cui l’AI concentra le proprie risorse su parti chiave del testo per migliorare la qualità delle risposte senza spreco di calcolo.
O1, O1-Pro, O3-mini, DeepSeek, Gemini Flash Thinking	Nuove generazioni di modelli AI ottimizzati per il ragionamento avanzato.
Test-time Optimizations (Ottimizzazioni in fase di utilizzo)	Insieme di tecniche per rendere l’AI più veloce ed efficace durante l’uso, tra cui hardware avanzato, compressione del modello e gestione intelligente della memoria.