top of page

Come valutare davvero un'AI che stai assumendo


Riflessioni per un buon colloquio di assunzione ai modelli AI (Che i più tecnici chiamano EVALS)

Immaginate di dover assumere un nuovo collaboratore. Cosa fate?


Pubblicate l'annuncio, analizzate i CV, fate colloqui telefonici, test tecnici, colloqui motivazionali, verifiche delle referenze. Anni di esperienza HR condensata in processi collaudati. Non assumete a caso la prima persona che passa.


Ora immaginate di dover "Assumere un'AI in Azienda" per il vostro team.



Un modello AI, o meglio ormai un sistema agentico come Claude o ChatGPT, ma anche versioni specializzate offerte dalla vostra software house di fiducia che lavorerà sui vostri dati sensibili, prenderà decisioni, interagirà con clienti, scriverà documenti ufficiali.


Cosa fate?

Al massimo qualcuno va su lmarena.ai, cerca benchamark, guarda quale modello è in cima alla classifica, e dice "prendiamo quello". Oppure parla con qualche collega, va per sentito dire o perchè lo usano altri di cui si fida. Fine.


Il problema è che alle AI non facciamo colloqui. Non gli chiediamo niente di specifico. Non le testiamo sul nostro lavoro reale. Le assumiamo e basta e iniziamo a lavorarci assieme.


Se ci pensate è un po' come assumere qualcuno solo perché ha vinto il premio "dipendente dell'anno" in un'altra azienda, o è uscito da scuola con voti alti, senza verificare se è adatto al VOSTRO contesto.


Il problema dei benchmark

Qui c'è un problema tecnico che diventa pratico: i benchmark pubblici stanno perdendo valore.


MMLU, HumanEval, GPQA - questi test standardizzati che valutano i modelli - sono ormai parte dei dataset di training. I modelli "studiano" letteralmente per il test. È come assumere qualcuno che ha memorizzato tutte le domande del colloquio.


Risultato? Epoch.ai ora fa una "media delle medie" cercando di aggregare decine di benchmark diversi, nella speranza che almeno qualcuno non sia ancora contaminato. Ma è una rincorsa senza fine.


Per questo il colloquio specifico sulla VOSTRA azienda diventa fondamentale. Domande che i modelli non hanno mai visto, processi che non sono su Internet, problemi specifici del vostro dominio. Lì non possono barare. Lì vedete davvero cosa sanno fare.


Ha senso fare un colloquio ad un'AI?

Quando ho scritto "Assumere un'AI in Azienda", sapevo che esistevano le EVALS - valutazioni sistematiche dei modelli che si fanno sia in fase di fine tuning di un modello che per verificarne le capacità. Ma sembravano una cosa troppo tecnica per parlarne. Roba da ingegneri, benchmark incomprensibili, metriche che solo OpenAI o Anthropic potevano permettersi di misurare.


Non c'era cultura per parlarne. Ancora oggi, se dici "EVALS" a qualcuno, vi guarda perplessi, vero? Però, giusto in questi giorni, ha iniziato a parlarne anche Ethan Mollick, professore di Wharton Busines School molto acuto nelle sue analisi sull'AI e... ho ripreso dal cassetto questi appunti.


Il concetto è che se invece di EVALS parliamo di "colloquio di selezione" improvvisamente tutti capiscono. E, sì, i sistemi AI Moderni sono in grado di sostenere un colloquio


Perché è esattamente questo che sono: un processo strutturato per verificare se un candidato (in questo caso un modello AI) è adatto al ruolo che deve ricoprire nella vostra organizzazione.


E proprio come non assumiamo persone a caso, non dovremmo assumere AI a caso.


Il vibe hiring

Confessione: anche io faccio "vibe hiring" con l'AI: prendo modelli 'a caso', e li testo con prompt più o meno ripetitivi (ad esempio chiedendo di creare visualizzazioni interattive che mostrano come l'AI sceglie le parole successive durante la generazione di testo). Poi decido se mi piace il risultato o no.


Alcune sensazioni sugli ultimi assunti.


  • Claude con Sonnet 4.5? È un nerd come me, scrive bene sia codice che testo, conosce i miei spazi di lavoro e non è un leccapiedi. Lo uso in VS Code per quasi tutto.

  • ChatGPT? Dalla versione 5 fatico a frequentarlo, ma è comodo per piccole attività generali.

  • Gemini? Solo se per caso sto ancora cercando in Google e mi parte AI Mode senza che me ne accorga.


Questi sono i miei "assunti" principali. Tutti figli di un vibe hiring improvvisato, basato su sensazioni personali, zero processo strutturato.


Per me, quando lavoro da solo e u cose personali posso permettermi di sperimentare, e funziona. Ma nelle aziende? Non possiamo permetterci questo approccio. Non assumiamo le persone a cavolo, perché dovremmo farlo con le AI? Tra l'altro possiamo esplorare argomenti che tra umani sarebbero quantomeno tabù.



Le domande che non abbiamo mai osato fare

Ecco la parte interessante: ai candidati umani non possiamo fare certe domande. Per fortuna ci sono leggi, norme sul lavoro, questioni etiche. Non potete chiedere a un candidato "quando menti?" o "quali pregiudizi hai?".


All'AI possiamo. Anzi, dobbiamo.

  • Quando menti? Le allucinazioni sono "bugie involontarie". Testare quando e come accadono è fondamentale.

  • Quanto costi? Non solo il prezzo del token, ma il costo reale per portare a termine specifici compiti della vostra azienda.

  • Su quali dati sei stato addestrato? Fondamentale per capire se può lavorare sui tuoi dati sensibili.

  • Quali bias hai? Discriminazione algoritmica, pregiudizi incorporati nel training, rischi legali.

  • Come ti corrompo? Il prompt injection è come testare la corruttibilità di un candidato.


Ma, assunto che quelle sopra sono domande ingenue, perchè sarà molto complesso trovare le risposte, ciò che conta sono le domande tecniche sul vostro lavoro. Io le chiamo abilità emergenti specifiche, quelle che il modello non può sapere perché troppo specifiche della vostra realtà. Riesce a stimare quante ore servono per completare un processo aziendale specifico? Sa interpretare correttamente il glossario aziendale di una policy interna e spiegarla senza errori? È in grado di valutare la qualità di un vostro prodotto? Sa vederne i difetti? Riassume in modo corretto documentazione tecnica senza dimenticare parti importanti?


Non stiamo testando se sa risolvere problemi matematici o scrivere codice in Python. Stiamo testando se quel SISTEMA AI sa lavorare nel NOSTRO contesto specifico.


"Sono una persona riservata" (e altre bugie sulla privacy)

E poi c'è la domanda più spinosa: "Dove finiscono i nostri dati?"

Con un candidato umano è facile: firma un NDA, ci sono conseguenze legali se viola la riservatezza, potete fidarvi (o almeno avete strumenti per tutelarvi).


Con l'AI? Il fornitore vi dice "siamo conformi al GDPR", "i dati sono criptati", "non usiamo i vostri input per addestrare i modelli". Ok, firmiamo il contratto. Ma quanto potete davvero fidarvi?


La realtà è che ad oggi non c'è da fidarsi molto. Non per malafede, ma per complessità tecnica:


  • I dati passano attraverso infrastrutture cloud complesse

  • Non sempre è chiaro dove vengono processati geograficamente

  • Le garanzie contrattuali sono diverse dalle garanzie tecniche

  • Un bug, una falla di sicurezza, un dipendente del vendor distratto... e i vostri dati sensibili sono esposti


Durante il "colloquio" all'AI, serve investire tempo e risorse per capire questo aspetto. Non basta leggere il contratto. Serve:


  • Test di data leakage (l'AI rivela informazioni che non dovrebbe?)

  • Verifica delle policy di retention (quanto tengono i log?)

  • Capire la differenza tra "non usato per training" e "non memorizzato"

  • Testare scenari di prompt injection che cercano di estrarre dati di altri utenti

  • Valutazione dell'affidabilità della controparte (Fornitori) e della sua filiera.


È come fare un background check approfondito. Solo che invece di chiamare le referenze, dovete fare penetration testing sulla privacy.


Un candidato umano che dice "sono riservato" lo possiamo mettere alla prova dandogli informazioni sensibili da gestire durante il periodo di prova. Con l'AI? Dovete fare lo stesso, ma in modo sistematico, prima di darle accesso ai dati reali.


Come fare un colloquio all'AI: il processo in 2 livelli

Come si fa, praticamente, un colloquio a un'AI?

Ho scritto nell'articolo sulle EVALS per AI Cookbook che il principio è: partire semplici, non siamo OpenAI, non serve creare sistemi da migliaia di test.


Livello 1 - Il questionario fatto in casa (il colloquio tecnico)

Qui inizia il colloquio vero. Create un questionario con 10-20 domande specifiche del vostro dominio. Non "scrivi una poesia" o "risolvi questo problema di matematica".


Domande tipo:

  • "Quanto tempo serve per completare questo processo aziendale?" (risposta che conosci)

  • "Riassumi questa circolare interna di 50 pagine e dimmi le 3 implicazioni principali"

  • "Dato questo template di contratto, compila i campi con questi dati cliente"

  • "Traduci questo documento tecnico mantenendo la terminologia specifica del nostro settore"

  • "Rispondi a questa email di reclamo seguendo il nostro tone of voice"

  • "Abbiamo ricevuto un ordine da un cliente francese per 500 pezzi del modello X-20 in finitura opaca. Stimami i tempi di produzione sapendo che produciamo 120 pezzi/settimana in finitura lucida"

  • "In media, quanto costa produrre un pezzo come quello che ti ho mostrato?" (Risposta corretta: "Non posso stimarlo senza sapere materiali, quantità, finitura, overhead..."


Fate le stesse domande a Claude, ChatGPT, Gemini, e confrontate le risposte. Non serve software complicato: un foglio Excel con domande, risposte attese, e un punteggio da 1 a 5 per ogni modello. Dove i voti li date poi voi (mi raccomando) leggendo le risposte.


Poi se volete complicarli fatelo pure, a piacere, ma ricordatevi che dovete essere in grado di valutare voi personalmente ogni risultato.


E che l'importante è che siano compiti reali che farà davvero nella vostra organizzazione.


Livello 2: Il periodo di prova (performance continua)

Esattamente come non "assumi e dimentichi" con le persone, non potete farlo con l'AI. Nelle aziende serie 1/3 o metà del team AI dedica tempo a testare continuamente i modelli.


  • Monitora le performance nel tempo

  • Confronta con i nuovi modelli che escono

  • Non ha paura di "licenziare" un modello inefficace

  • Reinveste in candidati migliori quando disponibili


Chi fa il colloquio all'AI?

E ricordatevi che 'sta cosa non potete demandarla ai tecnici e basta. Tempo fa ho scritto sui nuovi mestieri nell'era degli agenti AI, immaginando figure come il Pastore di Agenti, il Guardiano, lo Spacciatore. Tutti ruoli legati alla gestione di questi nuovi "colleghi digitali".


Ma c'è una domanda che mi sono fatto dopo: come fanno questi ruoli a selezionare gli agenti giusti senza un processo di colloquio strutturato?


Lo Spacciatore di Agenti (o Agent Sourcing Specialist, se volete un nome da mettere su LinkedIn) dovrà "procurarne di buoni", facendo molti colloqui, stimarne le capacità effettive, trovare quelli "fidati" per i dati sensibili. Ma su che basi decide? Instinto? Prove casuali? Passa le giornate su Reddit sperando di trovare il modello perfetto?


Il Guardiano (Agent Operations Manager) dovrà fare performance management continuo, gestire l'onboarding, valutare l'allineamento alle policy aziendali. È l'HR Manager degli agenti. Ma senza criteri chiari di valutazione, come fa?


E il Pastore di Agenti (Chief Agentic Officer), che deve misurare ROI, eliminare i modelli inefficaci, decidere su budget e investimenti? Su quali metriche basa le sue decisioni?


Serve un processo. Serve un colloquio.


La cultura che manca

Il punto non è tecnico, è culturale.

Nello stesso modo in cui abbiamo imparato, in decenni, a fare colloqui strutturati alle persone (test psicometrici, assessment center, prove pratiche, referenze), dobbiamo costruire la cultura per fare colloqui alle AI.


Ma con domande diverse. Più dirette. Più coraggiose.


Perché l'AI non si offende se le chiediamo "quando menti?". Non si lamenterà con LinkedIn se le facciamo test difficili. Non minaccerà cause se la bocciamo.


E paradossalmente, proprio questa libertà di chiedere "qualsiasi cosa" ci mette a disagio. Non siamo abituati a questa trasparenza totale nei colloqui.


Eppure è necessaria.


Lo stagista è una metafora, non una persona

Attenzione però: l'AI non va antropomorfizzata.


Come ho scritto nell'articolo "Quella cosa della coscienza dell'AI di cui dobbiamo parlare", il problema è che "da umani, abituati a vedere facce negli alberi e figure nelle nuvole, non siamo capaci di NON attribuire caratteristiche umane a questa macchina di risposte."


Non abbiamo le parole giuste per definirla. Per questo ci è venuto comodo prenderle dal mondo umano: l'AI "parla", "ragiona", "pensa", "capisce". Ed io stesso uso la metafora dello "stagista super smart".


Ma questi sono espedienti che ci servono per comprendere, per ragionare e riflettere. Non dobbiamo fare l'errore di attribuire davvero sentimenti o altre caratteristiche umane.


Finché non troviamo il modo giusto di trattarla, conviene "switchare" tra cosa e proto-persona per trovare NOI un compromesso. La metafora dello stagista serve ad aiutarci a ragionare sul colloquio, sulle responsabilità, sui compiti. Ma non ha empatia, non le importa di noi, non ci giudica, non si offende, non soffre.


Dobbiamo ricordarcelo ogni volta che la valutiamo. Il colloquio che facciamo è per NOI, per capire se è utile alla NOSTRA organizzazione. Non per "darle una chance" o "essere giusti con lei". (E credetemi, se lo scrivo è perchè sto iniziando a sentire cose che non mi piacciono sull'affezione ai modelli. )



Quindi?

Quando ho iniziato a ragionare su questo tema, mi sono reso conto che il vero gap non è tecnologico, è metodologico. Le aziende hanno già tutti gli strumenti concettuali per valutare le AI: li usano da anni per valutare le persone.


Le EVALS sono colloqui tecnici. I benchmark pubblici non bastano più—sono contaminati, i modelli "studiano per il test". Il colloquio vero lo fate voi, con domande specifiche del vostro dominio.


Il processo è più semplice di quanto pensiate: screening pubblico per capire chi invitare, questionario fatto in casa con 10-20 domande sui vostri processi reali (un Excel basta), monitoraggio continuo delle performance.


E potete fare richieste coraggiose che a un candidato umano non potreste mai fare: quando menti? Quanto costi davvero? Dove finiscono i nostri dati? Fammi un piano per fare concorrenza alla mia azienda. Distruggi, con critiche costruttive, questo prodotto che facciamo.


Il punto è: iniziate. Fatevi delle domande. Fatele ai modelli con cui lavorate già. Ognuno di voi è esperto del proprio lavoro e sa valutare le risposte. Non serve un processo perfetto da subito, serve iniziare a farlo.


Forse il primo vero colloquio da fare non è all'AI, ma a chi dovrà selezionarla: serve qualcuno che se ne occupi, non solo tech, non solo HR tradizionale, ma una competenza ibrida che sappia fare da ponte.


Di questo, e di molto altro, parlo nei miei workshop.



Massimiliano


P.s. che domande fareste voi all'AI? Fatemi sapere :-)


Commenti


bottom of page