Cosa è cambiato con GPT-4o?

“Non parlerò più di news”, mi ero ripromesso negli scorsi mesi, ce ne sono troppe, su argomenti non così importanti, e scrivendo aumenterei solo la confusione. Inoltre sto scrivendo il prossimo libro: “Assumere un’AI in Azienda” e davvero non riuscivo a trovare lo spazio per scrivere qualcosa di nuovo.

La competizione in corso

Nelle scorse settimane girava sulle classifiche di Chatbot Arena, un sito su cui è possibile comparare diversi modelli di AI, un modello denominato ‘im-also-a-good-gpt2-chatbot’, che aveva generato parecchio rumore. Come svelato da William Fedus di OpenAI si trattava proprio di GPT-4o!

Ma qualcosa è cambiato, di nuovo, anche se il nome che gli ha dato OPENAI è come sempre orribile (la ‘o’ sta per ‘omni’, che forse era meglio lasciare per intero. Lasciatemelo quindi chiamare Omni).

Ed i risultati, seppur non di ordini di grandezze diverse, mostrano come il nuovo modello che stacchi nettamente GPT-4-Turbo, fino ad allora il migliore di tutti .

Quindi: da marzo 2023, quando è stato rilasciato GPT-4, le ‘altre big’ hanno speso qualche miliardo per cercare di avvicinarsi, senza riuscirci, ad un modello vecchio di oltre un anno. E con questo rilascio Open AI ha di nuovo staccato tutti e definito nuovi paradigmi che vedremo tra poco.

Il rilascio di GPT-4o / Omni ha dimostrato a tutti l’attuale superiorità di OpenAI da questo punto di vista. E, anche in questo caso, siamo in presenza di un modello con una cut-off date piuttosto ‘vecchia’: ottobre 2023. (La cutoff date è la data in cui è finito l’addestramento del modello). A signficare che probabilmente il modello era nel cassetto da un po’, proprio come Sora.

The best interface is… an AI interface

Da sempre mi interesso e realizzo interfacce tra uomini e computer. Ho iniziato a vedere i primi computer a fosfori verdi all’inizio della mia carriera, quando si stavano dimenticando le schede perforate. E da subito, erano gli anni 90, sono stato pioniere delle nuove rivoluzionarie interfacce grafiche portate da Mac e da Windows (3.0). Da lì, per 30 anni, c’è stata tutta l’evoluzione (e a volte involuzione) che avrete in parte vissuto anche voi: software complessisimi da usare, funzioni, tasti, menu nascosti, cheat codes anche sulle pagine web (L’ultimo? Ieri per attivare qualche minuto prima Chat GPT-4o https://chatgpt.com/?oai-dm=1). E sforzi costanti di semplificare l’interazione e le interfacce per renderle accessibili, UX e UI Designer si sono arrovellati per rendere facile da usare le interfacce grafiche dei Software 1.0.

Quello che è successo ieri, seppur non sia uno step finale, è una assaggio della direzione già evidenziata da Golden Krishna nel 2015 con il suo libro “The best interface is no interface”: Interazione diretta tra uomo e macchina senza interfacce, almeno grafiche.

Omni, è un modello multimodale, in grado cioè di leggere testo, ascoltare audio, vedere immagini e rispondere di conseguenza, in tempo quasi-reale. (Il modello precedente traduceva audio in testo, elaborava una risposta da testo a testo, traduceva il testo in parlato di nuovo) ed era lento…

Ora è possibile parlare con il modello con tempi di latenza quasi nulli, si può interromperlo come si farebbe (maleducatamente) con qualunque umano, si può parlare di ciò che il modello sta vedendo (tramite le telecamere dei nostri dispositivi).

Permette di avvicinarsi molto al concetto di Sistema Operativo basato su LLM teorizzato da Andrej Karpathy come si vede qui.

Prendetevi mezz’ora e guardatevi tutti i video che trovate qui, o qui se preferite X, per rendervi conto di cosa si parla.

Queste feature non sono ancora state rilasciate a tutti ma i video non dovrebbero essere stati falsificati. (Condizionale d’obbligo)

Nuovi casi d’uso per l’AI

Per chi si fida sulla parola, da oggi è possibile:

tradurre istantaneamente una lingua in un’altra in una conversazione, proprio come farebbe un interprete.
Far vedere all’AI un meeting e chiederle di distinguere tra le persone che sente parlare (Ma senza che lei partecipi come agent, semplicemente mostrandole video e audio sullo schermo).
Far cantare l’AI (sì, ci avevate provato anche con Alexa, ma qui siamo su un altro livello).
Far interagire tra loro due AI, facendole dialogare in linguaggio umano. (E chiedendo loro di aiutarsi a scoprire il mondo).
Farsi dare consigli sul proprio aspetto e tono di voce (Come sto così? Tutti ci siamo fatti questa domanda ma abbiamo avuto paura di chiederlo temendo un giudizio umano negativo).
Farsi assistere nei compiti mentre li si fanno su un tablet o su un quaderno (Senza scrivere testo, prompt complessi, come si farebbe con un tutor vero).
Evolvere ulteriormente i concetti di customer service con interazioni dirette e velocissime tra utenti, spesso infastiditi ed operatori spesso troppo stressati.
Avere dall’altra parte una voce umanamente emotiva (sempre con i distinguo legati al concetto di emozione umana e sintetica).

Su quest’ultimo punto mi fermerò un po’.

Le AI vocali, seppur abbiano fatto passi a gigante, sono sempre state ‘atone’ e un po’ noiose. Ora potete scherzare con GPT-4o / Omni, chiederle di essere seria, raggiante, positiva. Ma lei stessa, in funzione di quanto le direte, si stupirà, preoccuperà o riderà di quanto le avete detto. (Lei in quanto AI)

E sul concetto di “lei”, Sam Altman aveva postato semplicemente “her” in un tweet ieri, riferendosi al famoso film in cui il protagonista si innamora della voce di un’AI.

Impatti sull’educazione

La parte di tutoring è piuttosto interessante. Presentata nientemeno che da Sal Khan, il fondatore di Khan Academy, di cui ho già parlato in passato, mostra come suo figlio riesca a fare i compiti di matematica assistito da un tutor che osserva in tempo reale ciò che fa, gli fa domande, gli offre suggerimenti. Dovrò rivedere i miei workshop scolastici ora…

Impatti sul business

Fino a venerdì, al mio ultimo workshop, era evidente che molte persone in azienda stessero usando AI gratuite come GPT-3.5. Forse il 5% di loro sta usando soluzioni di classe 4.0. Ma ora che GPT-4o è disponibile gratuitamente a tutti cosa succederà nelle aziende?

È, quasi, come aver dato a tutti Chat GPT4, un’operazione che prima costava tra i 20 ed i 30 USD ad utente al mese. Alcune parti del mio libro dovranno essere rielaborate adesso.

Un dettaglio sulla privacy

Per chi già si sta lamentando sulla destinazione dei dati, OpenAI ha anche rinnovato l’interfaccia di Chat GPT. Ora, anche gli utenti free, possono decidere di NON CONSEGNARE I DATI DELLE PROPRIE CONVERSAZIONI AD OPEN-AI con un semplice CLICK.

Significa che i dati sono al sicuro, in ambienti cloud con standard di sicurezza elevatissimi(Iso 27000, HIPAA, SOC 2 TYPE II e un sacco di altri importantissimi standard)?

Questo va approfondito, ma almeno è stata data una risposta ad uno dei motivi che più ostacolavano l’utilizzo libero dell’AI.

Chissà quanto costa!

La cosa interessante è che 4o è stato già rilasciato a tutti gli utenti OpenAI, compresi quelli gratuiti.

OPENAI ha deciso quindi di portare avanti il suo ‘credo’ di ‘AI accessibile’ offrendo a tutti il modello di AI più potente di sempre seppure con limitazioni di tempo e di funzionalità (tra cui ad esempio l’assistente vocale)

E qui tutte le considerazioni sui business models, su chi sia il prodotto ecc. possono scatenarsi. A patto di ammettere che non siamo davanti ad un’azienda tradizionale e quindi il futuro è ancora tutto da scrivere.

Quindi…

Abbiamo un nuovo modello, multimodale per davvero, veloce (mi dispiace un po’ per Groq ma le nuove GPU di NVidia si fanno notare su GPT-4o), che seppur ancora lontano dal concetto di Intelligenza Artificiale Generale, ha ancora molto di sé da far scoprire.

E soprattutto molto da chiedere ai competitor che ora dovranno capire quando riusciranno a tirare fuori dal cassetto il loro stato dell'arte e magari portare finalmente qualcosa di nuovo.