VeriTrail: Smaschera le allucinazioni nei flussi AI multi?step (in modo tracciabile)

Nel mio ruolo di Data & AI Architect in Microsoft, posso permettermi di alzare un sopracciglio e dire: “Sì, i modelli generativi possono allucinare. E parecchio.” Ecco perché oggi vi parlo con un certo gaudio di VeriTrail, un sistema che non solo rileva le closed?domain hallucinations, ma… tiene un diario di bordo di ogni passaggio che porta all’output finale. Che in sostanza è come avere un detective in un serial TV che segue ogni pista.

Che diavolo fa VeriTrail?

VeriTrail si basa su un’idea geniale: rappresentare tutto il flusso generativo come un grafo orientato aciclico (DAG). Ogni nodo è un pezzo di testo, dal materiale originale ai vari step intermedi fino alla risposta finale, con connessioni che ne tracciano la provenienza.

Ecco la chicca: ogni claim nell’output finale viene verificato a ritroso, nodando per nodo, fino a individuare se è supportato o pura invenzione.

Tracciabilità: da dove è entrato il bug?

Due funzionalità che mi fanno applaudire mentalmente:

Provenance – se il claim è lecito, VeriTrail rintraccia ogni passaggio fino alla fonte originale.
Error Localization – se il claim è frutto dell’artista modello (cioè un’invenzione), indica esattamente in quale nodo è stata generata la balla.

Come lo fa? Il processo in poche mosse:

Estrae i claim veri e propri (grazie a Claimify) dal risultato finale.
Verifica ciascun claim procedendo a ritroso: seleziona frasi dai nodi di input, genera un verdetto (Supportato, Non supportato o Inconcludente), e continua finché arriva alla fonte o finché il claim fallisce più volte consecutive (configurabile).
Traccia e conserva la catena dell’evidenza—frasi, ID, riassunti—e restituisce il percorso completo o il punto di errore.

Quando (e se) diventa utile?

Due casi pratici: un claim supportato da un workflow tipo GraphRAG (diviso in chunk ? entità ? comunità ? sintesi finale) mostra fedeltà alla fonte in ogni passaggio; al contrario, un claim inventato viene localizzato con precisione, spesso nel nodo finale.

I vantaggi (che fanno venire gli occhi a cuoricino):

Audit umano facilitato: puoi saltare la mole di DAG e andare dritto alle frasi chiave e ai riassunti.
Debug precoce e centrato: sappiamo esattamente dove è nato l’errore.
Trasparenza e fiducia: indispensabili in contesti regolamentati o mission?critical.

Occhio che…

Affidarsi al modello sottostante significa che se è falloso, anche VeriTrail può esserlo
Workflow enormi consumano risorse e tempo, per quanto ottimizzato sia il processo.
Serve (come sempre) supervisione umana nei casi borderline.

Se oggi hai un sistema multi?step che genera risposte, VeriTrail non è solo un rilevatore di bug: è un investigatore, un ingegnere forense, un testimone oculare della genesi delle risposte. Insomma, un compagno prezioso quando non ti fidi del modello… cosa che, immagino, ti succeda spesso (beh, hai fatto bene).

questo l’articolo originale:
https://www.microsoft.com/en-us/research/blog/veritrail-detecting-hallucination-and-tracing-provenance-in-multi-step-ai-workflows/