top of page

DeepSeek sta davvero cambiando le regole del gioco?

Aggiornamento: 3 feb

Ok, è passato abbastanza tempo, ora posso parlare anch'io di DeepSeek.


Negli ultimi giorni ho ricevuto decine di messaggi che mi incitavano a parlarne e mi sono morso la lingua nel rispondere a molti personaggi online che hanno cavalcato l'onda per qualche like in più.

Devo dire che mi ha parecchio innervosito la superficialità con cui è stato trattato da molti pseudo-esperti, la tonnellata di inesattezze dette da voci autorevoli e non informate, lo stampede che ha generato in tutti quelli che si sono dimostrati pronti a generare allarmismi senza ben capire perchè. Chissà quanti di loro hanno almeno letto il paper o se se lo sono fatti riassumere da ChatGPT.

In ogni caso tutti i dati tecnici, le cose 'FANTASTICHE' che fa, se batte di 0,0012151 qualche benchmark vi invito a cercarli in rete dove in molti hanno cercato di dire la loro prima che lo dicesse qualcun'altro.


Premesso che credo sia ancora presto per un'analisi precisa e che sicuramente ci sono effetti di cui ci accorgeremo più avanti... provo a riflettere assieme a voi. Quindi preparatevi a un sacco di domande.


Gli squali, e qualche altro pesce grosso, cercano di capire cosa accade con l'arrivo di DeepSeek... by Midjourney
Gli squali, e qualche altro pesce grosso, cercano di capire cosa accade con l'arrivo di DeepSeek... by Midjourney

Le domande che mi girano in testa sono più o meno queste:

  • Davvero nessuno pensava che prima o poi sarebbe arrivato qualcuno a cambiare le regole?

  • Davvero qualcuno si aspetta che non accada ancora?

  • Davvero qualcuno pensava che i sistemi rilasciati ad oggi fossero ottimizzati al massimo? Che gli LLM così come sono fossero il massimo raggiungibile? Che non ci siano altre forme di AI Generativa in grado di rimpiazzare gli LLM o il modo in cui vengono prodotti?

  • Davvero c'è qualcuno che crede che non serviranno più così tante GPU NVidia ora che i modelli sono sempre più multimodali? Processare voce e video richiede potenze ben più ampie. E l'utilizzo dell'AI è ancora ridicolmente basso se andiamo a vedere quanta popolazione lo usa effettivamente tutti i giorni.


Quando c'è da fare disruption non si guarda all'ottimizzazione, la si fa dopo. Ora ogni produttore di modelli ha bisogno di uscire e per farlo ha immensi capitali a disposizione: non si sta occupando di ridurre i costi ma di massimizzare le quote di mercato. DeepSeek si è mossa forse con un principio di Jugaad Innovation (Innovazione Frugale, di Navi Radjou un bel libro che vi consiglio) non avendo molto altro (oltre al miliardo di dollari di funding...)


Mi piace raccontare come l'AI rimetterà in discussione interi settori di business: perché non dovrebbe iniziare da sé stessa? Se arriveremo all'AGI, cosa accadrà alle borse se ci comporteremo ancora così? O se un'AI ci aiuterà a risolvere grandi problemi (cancro, criminalità, diseguaglianze sociali, quello che volete voi), cosa accadrà ai mercati basati sulla ricerca infinita di soluzioni per risolverli?

L'AI è una questione di IMPATTO non di tecnologia.

Aspettiamoci che accada, quindi, anche in settori inaspettati...


PS. Nel frattempo OpenAI ha già risposto con la serie O3 Mini (mi piace, ma è troppo presto per un'opinione definitiva), preparatevi all'ondata di post che iniziano con "AMAZING!"


Cosa è cambiato con DeepSeek

  • Possiamo scaricare versioni di "modelli che pensano" in locale, installarli sui nostri server, con costi ridotti e massima data protection (anche se dubito che il mio PC sia più sicuro di un server di quelli che ospitano un servizio AI medio).

  • Sappiamo che nemmeno OpenAI ha fossati a protezione del suo modello di business (Anche se con Stargate qualche anticorpo lo sta preparando)

  • Oggi OpenAI non è più sola nel campo dei modelli avanzati: stiamo assistendo all'emergere dei Reasoning Models, un’evoluzione rispetto ai tradizionali Language Models. Siamo infatti entrati nella terza ondata delle scaling laws, quella del Test-Time Scaling, dove il focus non è più solo sull’elaborazione del linguaggio, ma sulla capacità di ragionamento e adattamento in tempo reale. Ne parleremo molto in futuro.

    Jensen Huang, CEO di NVidia che mostra un grafico probabilmente ispirato a Peter Gostev (Giusto per darvi qualche nome dietro alle cose)
    Jensen Huang, CEO di NVidia che mostra un grafico probabilmente ispirato a Peter Gostev (Giusto per darvi qualche nome dietro alle cose)

    Oltre a Deepseek, modelli come Gemini Thinking  e Claude(che al momento pensa ma non ci racconta cosa pensa) rappresentano questa nuova generazione: prima di rispondere pensano e, molto interessante, ci mostrano la loro catena di pensieri.

  • I Prezzi dei token di input ed output sono calati di 1000 volte in un anno e mezzo: ora inizieranno a calare pesantemente anche quelli dei token di ragionamento.


Grazie a questo:

  • Possiamo iniziare a lavorare seriamente applicazioni agentiche da implementare nei prossimi mesi. Senza svenarci in costi di token.

  • Potremo esplorare a fondo ogni argomento leggendo il pensiero preliminare dei modelli. Ricordandoci che OPENAI non mostra tutti i pensieri, ma un riassunto dei pensieri, proprio per evitare di dare vantaggio agli altri che potrebbero usarli per addestrare i propri modelli (L'accusa che OpenAI ha fatto a DeepSeek è proprio su questo).


Cosa non mi piace

  • OpenAI e DeepSeek probabilmente non raccontano tutto: benchmark e processi di sviluppo rimangono ancora secretati.

  • DeepSeek infatti non è open source, ma open weight. Dove sono i dati che hanno usato? Come hanno fatto a usare altri modelli per distillare il loro? Come è fatto l'algoritmo transformer che hanno usato? Che attività di tuning hanno fatto esattamente e soprattutto cosa c'è nei 'cold-start data' che hanno usato per renderlo minimamente comprensibile da un umano nella versione R1? Quando leggete o sentite di qualcuno che vi parla di Open Source nell'AI andate a verificare questi aspetti e scoprirete che quasi nessun modello, tra i più performanti, lo è al 100%

  • La licenza d'uso di DeepSeek Chat solleva preoccupazioni significative: i vostri Input ed output sono di libero accesso alla società (Sezione 3.3 dei termini d'uso). Questo implica che i dati condivisi potrebbero essere utilizzati per finalità interne, senza un controllo diretto da parte dell'utente. Il tutto avviene, per l'app e la chat web, su server cinesi, dove le leggi sono altre rispetto alle nostre. Mentre se lo scaricate in locale... potete fare ciò che volete.


Cosa mi intriga

1) Che finalmente posso avere modelli che pensano sul mio Mac o nei miei progetti. Avere la possibilità di utilizzare varianti di R1 aprirà a molti scenari innovativi locali, senza patemi di privacy o geo-scenari catastrofici.


2) L'utilizzo di questi modelli spinge più in alto, per noi umani, l'asticella del pensiero.

Provate a seguire questo ragionamento.

  • DeepSeek-R1-Zero, la versione da cui è originato DeepSeek-R1, pensa in modo non allineato, mescola le lingue per esprimersi. In una versione esponenziale di quello che faccio io quando uso decine di termini inglesi nel mio italiano per, credo, spiegarmi meglio.

  • Nel paper si legge qualcosa di simile a questo “Sebbene l'allineamento comporti un leggero degrado delle prestazioni, ... lo rende più leggibile.”

A significare che DeepSeek ha comunque fatto alcune attività di tuning al modello per raccontargli come pensare in modo che anche noi possiamo capire. Altrimenti lo avrebbe fatto 'a modo suo'


E qui mi è venuta in mente una frase di Gianfranco Carofiglio che dice:

"Le idee esistono solo se abbiamo le parole per nominarle e descriverle."

Cosa accade quando un'AI inizia a sviluppare un proprio linguaggio in cui condensare proprie idee in lemmi generati a partire da tutte le lingue del mondo? Sta creando il proprio esperanto? Se la lingua è ragionamento, se dobbiamo avere bisogno di conoscere le parole per esprimere concetti complessi, non è che vedendo la sua versione grezza potremmo evolvere anche il nostro di pensiero?


Un esempio interessante è il caso di OpenAI con i suoi modelli GPT, dove si è osservato l'emergere di pattern linguistici non intenzionalmente programmati, un fenomeno definito "drift linguistico". Allo stesso modo, Google DeepMind ha riportato fenomeni simili nei modelli AlphaGo e AlphaZero, dove l'AI ha sviluppato strategie di gioco imprevedibili per gli umani (la famosa mossa 37).


Cosa accadrà quando non capiremo proprio non solo come funziona esattamente un modello di linguaggio (situazione attuale) ma nemmeno come comunica e come pensa? Non è forse questo un comportamento emergente che, diversamente da molti altri, non riusciamo a capire bene e quindi lasciamo per il momento sotto una coperta?


Potrebbe essere un primo passo verso modelli capaci di sviluppare strutture concettuali completamente autonome, una sorta di metacognizione artificiale che ridefinisce il confine tra linguaggio e pensiero. in cui condensare proprie idee in lemmi generati a partire da tutte le lingue del mondo?


Cosa starà facendo DeepSeek con questa versione grezza? (Se qualcuno sa come si può provare a dare un'occhiata a R0 e ce lo vuole dire ci aiuterà a capirlo).



Quindi...

Lascio a voi un po' di considerazioni finali. Di fatto questo mio post è un immenso "Quindi..."


Di sicuro non sarà l'ultima volta che una notizia legata all'AI manderà in panico i mercati e le persone.


Se il mondo dell'AI è il più veloce che abbiamo mai conosciuto, dobbiamo aspettarci ancora altra disruption. Siamo ben lontani da un mercato maturo.


I vari player stanno cercando di scavare fossati per difendere le proprie postazioni, ma i concorrenti arrivano dal cielo.


Quando riaccadrà fate un lungo respiro, concentratevi sull'essenziale, analizzate i dati disponibili con spirito critico e confrontate diverse fonti per avere una visione più chiara. Stabilite delle priorità operative per adattarvi rapidamente ai cambiamenti, senza lasciarvi sopraffare dall'urgenza del momento. Traete le vostre conclusioni e modificate quel che dovrete cambiare.


In ogni caso non finisce qui e probabilmente anch'io non sto vedendo la luna ma sto solo guardando al dito che la punta.


Vi lascio con un po' di link che non mi sono dispiaciuti

Il paper di DeepSeek: https://arxiv.org/abs/2501.12948


Se questo articolo ti è piaciuto condividilo, mi aiuterai a scriverne ancora 😀

Scopri di più su Linkedin o su https://maxturazzini.com

1 комментарий


Bell'articolo che dice le cose come stanno. Ma siamo sommersi dall'informazione spazzatura. Questi contributi, invece, sono di grande aiuto. Grazie. Continuo a seguirti

Лайк
bottom of page