'Interfacce AI dalla Chat alla voce: Sfide e Futuro'

Ovvero: quando il prompt non basta.

Nella lunga coda di post che ho in bozza c'è questo argomento latente da molto tempo: qual è l'interfaccia ideale per comunicare con un'AI generativa?

Una mattina, leggendo uno dei sempre interessanti post di Stefano Gatti (link)—dove tra l’altro parla di Data Visualization con Federica Fragapane (ero presente a quel TED 🙂), interfacce vocali e oggetti smart—mi sono sentito ispirato.

È proprio questo post che mi ha spinto a condividere con voi qualche riflessione sull’AI e sulle sue interfacce, per capire se il prompt possa essere quella definitiva, scritto o vocale che sia.

Noi davanti alle mille possibilità di interfaccia dell'AI. Secondo Midjourney

Storia delle interfacce: dai mainframe alle GUI

Ho iniziato la mia carriera aiutando un'azienda a fare il passaggio dai terminali mainframe alle interfacce grafiche. A soli 19 anni, ho avuto il compito di introdurre un nutrito gruppo di programmatori Cobol, che avevano iniziato la loro carriera con le schede perforate, ai concetti delle GUI (Graphical User Interface) portati da Windows e dal Web. Non sono un mago dell'UI, ma da allora nutro una profonda passione per questo campo e per come noi umani ci interfacciamo con la tecnologia.

Oggi, proprio come allora, ci troviamo di fronte a una trasformazione, quella dell'AI: e credo sia fondamentale rendere l’AI comprensibile e utilizzabile anche per chi non ha competenze tecniche.

L’evoluzione dalle interfacce verso i computer ha aperto l'informatica a (quasi) tutti, rendendola (quasi) intuitiva e visivamente accessibile. Con l’AI, il concetto è simile: per sfruttare al massimo il suo potenziale, dato che come amo ripetere non è semplice Software 1.0, dobbiamo costruire interfacce altrettanto naturali, che non richiedano conoscenze specialistiche da parte degli utenti e che, visto che possiamo dialogare in linguaggio naturale, diano maggior peso a questa modalità.

Una sfida con complessità ancora maggiori dato che ci aspettiamo che l’AI comprenda intenzioni e risponda in modo sensato a input diversificati.

Interfacce tradizionali vs AI Generative

La tastiera ed il mouse (con relative evoluzioni e mille altri device) sono state finora le nostre interfacce verso il software (E io amo molto la tastiera). Ma le AI Generative, con l'arrivo dei modelli multimodali, che ci permettono di inserire e progettare testo, dati visuali e suoni, hanno altre esigenze e possibilità, e richiedono input diversi.

Modalità: Una sintesi visiva di alto livello delle diverse modalità utilizzate dalle AI generative. Da "Survey of User Interface Design and Interaction Techniques in Generative AI Applications" (Luera et al. , 2024)

Quindi le sfide per chi sta progettando le nuove interfacce sono notevoli. È il momento di superare le limitazioni delle interfacce tradizionali con approcci completamente nuovi.

Per chi è più preciso, segnalo che esistono anche degli standard ISO che definiscono i fattori chiave per misurare l'usabilità: efficacia, efficienza e soddisfazione non sono più soggettivi, ma misurabili. Per approfondire, si può leggere questo paper o quello da cui ho tratto l'immagine sopra di Luera et al..

La mia ricerca di un'interfaccia migliore con l'AI

Il mio tentativo di "jarvisizzare" tutto, ovvero creare un assistente AI simile a Jarvis di Iron Man, che mi riconosca e mi permetta di portare con me la mia AI privata, senza scambi con la Rete, rappresenta la mia costante ricerca di un 'modo migliore' per rapportarmi ai dati, agli algoritmi, all'interazione con l'AI. E sto sperimentando sulla mia pelle le difficoltà dovute all'interfacciarsi con tutti questi modelli di intelligenza artificiale. Ne ho parlato e ne parlerò a breve sul blog, perché credo che il tema delle AI Personali sia di fondamentale importanza nel prossimo futuro.

Quali sono i limiti delle interfacce AI attuali?

Quello a cui stiamo assistendo negli ultimi mesi parla chiaro e forse è capitato anche a voi:

Chi usa AI via Bot in stile chat (Retaggio del software 1.0) ha problemi ad ottenere risultati efficaci perché è difficile fare domande strutturate per la persona media. Questo genera spesso risultati mediocri.
Quando è l'AI a fare domande, ci troviamo spesso spiazzati o infastiditi dalle sue richieste, e non le riteniamo sufficienti. (Super tema da approfondire: suggerisco sempre di farsi fare domande dagli LLM per migliorare le interazioni).
Anche se una conversazione supera i 100k tokens di contesto (equivalente a un breve romanzo), noi fatichiamo a tenere traccia di tutti i passaggi. Molte conversazioni finiscono per "accartocciarsi" per difficoltà di contesto nostre o degli LLM.

In sostanza, l'arrivo degli LLM ci ha posti nella condizione di chiedere qualunque cosa, ma ci siamo accorti che non si può chiedere "a caso". Richieste mal poste generano risposte inconsistenti.

Per questo sono nati i prompt engineer, che ci spiegano come porre domande all'AI per ottenere risultati migliori. Ma anche qui emergono limiti di interfaccia: ci stiamo adattando noi alle modalità di comprensione dell'AI, invece di pretenderne l'adattamento alle esigenze umane. Questo significa che stiamo continuando con le limitazioni degli ultimi 50 anni, in cui gli utenti si sono (male)adattati al software e perdono un sacco di tempo a fare cose complesse e non produttive.

Per farvi capire meglio la difficoltà di interagire ho fatto un esperimento interessante con Leonardo.ai utilizzando un Realtime Canvas che interpreta ciò che disegniamo in tempo reale. Se nel frattempo forniamo un prompt per contestualizzarlo, ci aiuta a realizzare risultati molto precisi anche se, come me, non sappiamo disegnare. Potete guardare il video (anche per sorridere un po') per vedere come funziona: l'AI interpreta il nostro disegno e lo arricchisce in base alle istruzioni date.

Quindi il prompt non basta, ma è chiaro a tutti che è necessario uscire dal concetto di chat come unica interfaccia quando si interagisce con un'AI. A volte serve 'farle vedere', altre 'farle sentire' e condividere con noi il contesto in cui ci stiamo muovendo.

I tentativi in corso

Negli ultimi mesi, potete notare molti tentativi per superare questi limiti:

OpenAI sta adattando ChatGPT con la funzione Canvas, trasformandolo in un editor di testo o di codice.
O1 promette di ragionare meglio con input testuali minimi per comprendere i nostri intenti come ho raccontato qui grazie ad un modello che è in grado di 'capire' meglio le nostre intenzioni e ridurre la lunghezza dei nostri prompt.
Midjourney ha introdotto un editor per modificare le immagini generate con il prompt, simile a ciò che fanno Adobe e DALL-E 3 con il Generative Fill.
Microsoft sta integrando Copilot ovunque, affrontando il vecchio problema delle interfacce nella suite Office e nei sistemi aziendali, cercando di mettere assieme Software 1.0 e 2.0.
Google ha creato Notebook LM riducendo l'uso della chat e introducendo la bellissima funzione del podcast a due in ambienti nei quali è necessario far riferimento a molta conoscenza propria e non del modello stesso.
Notion e altri strumenti come Visual Studio, Photoshop, Canva, sono ormai pervasivi di copiloti. Ma gli esempi sono ormai centinaia.

in sostanza: siamo sommersi di assistenti che mescolano il Software 1.0 con l'AI, e aumentano la portata della sfida sull'usabilità.

La voce come soluzione?

Da "2001 - Odissea nello spazio" con HAL 9000, fino a Iron Man con Jarvis, sembra che l'approccio più naturale verso un'AI sia quello di interfacciarci con lei tramite la voce. Ci sembra il modo più naturale, spontaneo ed efficace vero?

Ad esempio, le aziende stanno implementando assistenti vocali per agevolare i team di vendita nell'accesso a dati del CRM in tempo reale, semplicemente facendo domande dirette: “Quali sono le vendite di questo mese?” o “Mostrami i clienti che non hanno ancora ricevuto follow-up”. Nei call center, i voicebot permettono agli operatori di recuperare rapidamente informazioni o registrare ordini senza interrompere il flusso della conversazione, migliorando efficienza e soddisfazione dei clienti. Sono piccole rivoluzioni che semplificano l'accesso ai dati e velocizzano le operazioni quotidiane.

Negli ultimi mesi ci sono stati passi da gigante anche qui:

Elevenlabs ha creato un voice bot quasi perfetto, che risponde a molti criteri della mia serie di post sugli assistenti AI. L'azienda si concentra sull'accuratezza della voce e sulla capacità di replicare le inflessioni, rendendo le conversazioni più realistiche e naturali. L'ho provato e devo dire che è notevole, anche se non se la cava benissimo quando ci sono tanti contenuti 'extra modello'
HeyGen ha introdotto avatar interattivi con sembianze umane e voce clonata. Questo strumento non solo risponde con una voce sintetica, ma offre anche un avatar visivo, creando un'esperienza di interazione più coinvolgente, utile per presentazioni o dimostrazioni. (Scoprite di più nei miei workshop!).
OpenAI ha rilasciato advanced voice mode, emozionante ma non esente da problemi. Dopo i primi mesi di utilizzo, la sensazione è che, pur interessante, "so che è finto" e questo potrebbe rappresentare un limite. Tuttavia, il potenziale per interazioni vocali rapide lo rende un complemento utile per l'uso quotidiano. Che comunque alza, di molto, l'asticella per chiunque voglia progettare soluzioni di 'Voice AI'.
Google Notebook LM aiuta con i podcast, ma si tratta di un'interfaccia a senso unico dall'AI a noi e non è interattiva. La funzione di riassumere rapidamente un argomento complesso in un formato audio è utile per chi ha poco tempo e vuole un'informazione condensata.
Con i miei occhiali Meta Ray-Ban, posso parlare con l'AI di Meta (Llama), ma le interazioni sono brevi e poco contestualizzate. È uno strumento utile per interazioni rapide, ma manca di profondità e continuità nel dialogo.

Sembra quindi che la voce possa risolvere molte dispute, ma non tutte. Ad esempio, descrivere a voce modifiche precise di immagini o video è ancora un compito complesso.

Nel video di Leonardo vedete come sia molto più semplice interagire disegnando e descrivendo con un prompt ciò che vogliamo ottenere. Aggiungendo la voce a questa interazione credo la complicheremmo di più...

Quindi...

Non solo le difficoltà di descrivere un'immagine o un video a voce, ma anche azioni più semplici, come l'editing di un testo, rendono evidente che non è sufficiente un prompt, nemmeno se dettato a voce.

Se non vi bastano gli esempi sopra immaginate di voler apportare una modifica a una tabella complessa: descrivere verbalmente ogni cella da cambiare, il contenuto, le formule e il formato richiederebbe molto più tempo e precisione rispetto all'uso diretto di una tastiera e di un mouse.

Immaginate poi di dire ad un editor di testo: "Metti in grassetto la parola 'difficoltà' nella frase precedente alla posizione del cursore". Si fa prima con un click.

La voce è senz'altro un complemento ideale per chi trova la tastiera lenta, utile soprattutto in mobilità o per task contestuali, come un help desk vocale o per interrogare un CRM. Tuttavia, si limiterà a contesti o momenti ridotti, poiché non ha la stessa efficacia di un dialogo in persona, dove entrano in gioco fattori empatici e non verbali.

In ogni caso siamo ancora all'inizio di un lungo percorso di ricerca. Le interfacce per relazionarsi con l'AI stanno migliorando esponenzialmente e, cercando la loro strada, stanno facendo uscire l'AI dallo schermo per adattarsi meglio alle nostre esigenze.

Guardando al futuro, l'interazione con l'AI potrebbe spingersi oltre voce e testo. Nuove tecnologie, come le interfacce neurali, stanno aprendo scenari affascinanti: immaginate di poter inviare comandi semplicemente pensando a un’azione, senza bisogno di toccare tastiera o mouse come promettono Neuralink o gli esperimenti di Meta. Oppure, grazie agli strumenti di riconoscimento emotivo, un’AI potrebbe interpretare i nostri stati d'animo dal tono di voce, dalle immagini in tempo reale, dal tono di scrittura, modulando le risposte di conseguenza per creare un’interazione più empatica e naturale. Questi sviluppi sono ancora agli inizi, ma aprono possibilità che potrebbero rivoluzionare l'interfaccia uomo-macchina, rendendo l’AI non solo uno strumento, ma un vero “collaboratore virtuale”.

Glimpse, il mio romanzo che esplora la nascita e l'evoluzione di una Super AI, parla molto di interfacce e, nella nota di apertura, inizia proprio con una nota su questo concetto: Best Interface is No Interface. Nel romanzo esploro la possibilità che la problematica delle interfacce venga risolta proprio dall'AI, che troverà il modo di farsi capire molto bene da noi. (Vi tocca leggerlo se volete sapere come 🙂).

Non mi aspetto che a breve arrivi la soluzione definitiva, tutto sommato anche tra umani abbiamo (seri) problemi ad interfacciarci, a comprenderci, e le incomprensioni, con le loro conseguenze spesso terribili, sono all’ordine del giorno.

Forse davvero sarà l’AI in futuro a risolvere questo grande problema di base. Ma mi viene in mente Imagine di John Lennon, forse è solo un’utopia 🙂

Però...

Sono curioso di conoscere il vostro punto di vista.

Pensate che la voce sia davvero il metodo di interazione ideale o vi immaginate nuove modalità più avanzate?
Cosa vi stressa e disturba di più quando lavorate con l'AI?
Se create soluzioni con l'AI: quali sono le sfide per creare l'interfaccia AI perfetta per voi?

Fatemelo sapere nei commenti e... per non perdervi i prossimi aggiornamenti, iscrivetevi alla newsletter!

Oltre la chat: come l'AI cambia il modo in cui comunichiamo