Immagina di scrivere un messaggio al telefono e di vedere comparire, sopra la tastiera, la parola che probabilmente vorrai usare dopo. Tu cominci con 'Stasera ti', e lo schermo ti suggerisce 'chiamo'. È un piccolo trucco a cui ci siamo abituati senza farci caso. Ecco: un Large Language Model come ChatGPT è, in fondo, quello stesso trucco portato all'estremo, allenato su una quantità di testo grande quanto una biblioteca infinita.
Prima cosa: spezzare il testo in pezzettini
Un computer non legge le parole come noi. La primissima cosa che fa è ridurle in frammenti gestibili, un'operazione chiamata tokenizzazione. Pensa a quando dividi una tavoletta di cioccolato lungo le linee già stampate: non la mordi intera, la spezzi in quadretti. Allo stesso modo il modello prende una frase e la taglia in token, cioè piccole unità che a volte sono parole intere, a volte pezzi di parola.
Per esempio, una parola comune come 'casa' resta un solo quadretto. Una parola più rara o lunga come 'inverosimilmente' viene spezzata in più pezzi ('inver', 'osimil', 'mente'). Questo permette al modello di gestire anche parole che non ha mai visto prima, ricomponendole dai mattoncini che conosce, un po' come noi leggiamo una parola inventata sillabandola.
Trasformare le parole in coordinate di significato
Una volta ottenuti i quadretti, il modello non ci vede ancora delle 'parole': deve convertirle in numeri, perché di numeri vive. Qui entra in gioco l'embedding, e l'analogia migliore è una mappa.
Immagina una gigantesca mappa geografica dove ogni parola ha le sue coordinate. Le parole con significato simile vengono piazzate vicine, come paesi confinanti: 're' e 'regina' stanno nello stesso quartiere, 'cane' e 'gatto' in quello accanto, mentre 'frigorifero' è dall'altra parte della città. La cosa sorprendente è che su questa mappa anche le relazioni diventano direzioni: lo stesso 'spostamento' che porta da 're' a 'regina' porta anche da 'uomo' a 'donna'. Il significato, insomma, diventa una posizione nello spazio.
Capire quali parole contano: l'attenzione
Ora il modello ha una frase fatta di coordinate. Ma le parole non valgono tutte uguale a seconda del contesto. Prendi la frase: 'Ho lasciato il telefono sul tavolo perché era scarico'. Cosa era scarico, il telefono o il tavolo? Tu lo capisci al volo, collegando 'scarico' a 'telefono' e ignorando 'tavolo'.
Questo collegamento selettivo è esattamente ciò che fa il meccanismo di attenzione (in inglese self-attention). È come quando, in una stanza affollata e rumorosa, riesci a concentrarti solo sulla voce della persona con cui parli, lasciando sfumare tutto il resto. Per ogni parola, il modello calcola quanto deve 'ascoltare' tutte le altre parole della frase, dando più peso a quelle che ne chiariscono il senso. È questa capacità di pesare il contesto che lo rende così bravo a non perdere il filo anche in testi lunghi.
Il cuore di tutto: indovinare la parola dopo
E qui arriviamo al motore vero. Un LLM, in fondo, fa una cosa sola: dato tutto quello che ha letto finora, prevede il token successivo. Una parola alla volta, come chi posa una tessera del domino e poi guarda quale tessera ci va meglio accanto.
Quando gli chiedi 'Il cielo è di colore...', il modello non 'sa' che il cielo è azzurro: ha solo notato che, in miliardi di frasi lette, dopo quelle parole arriva quasi sempre 'azzurro'. Sceglie quel token, lo aggiunge alla frase, e poi ricomincia il calcolo per la parola dopo, e poi ancora, finché la risposta non è completa. Una risposta lunga e articolata nasce così: una previsione dopo l'altra, costruita mattoncino su mattoncino.
Dove ha imparato tutto questo
Perché queste previsioni siano sensate, il modello deve prima fare un enorme tirocinio. Si chiama pre-addestramento: gli si dà da leggere una quantità spropositata di testo — libri, articoli, pagine web, conversazioni — e gli si fa giocare a un solo gioco, ripetuto miliardi di volte: 'ti copro l'ultima parola, indovinala tu'. Ogni volta che sbaglia, si corregge un pochino. È come un bambino che impara la lingua per immersione, sentendo parlare tutto il giorno finché non comincia a prevedere lui stesso come finiscono le frasi.
Finito il tirocinio generale, arriva la rifinitura, il fine-tuning. Qui il modello viene addestrato su esempi più specifici e con il feedback di persone, per imparare non solo a dire cose plausibili, ma a essere utile, educato e a seguire le istruzioni. È la differenza tra un cuoco che ha imparato a cucinare guardando migliaia di ricette (pre-addestramento) e lo stesso cuoco che fa un corso mirato per servire in un certo ristorante, con le sue regole (fine-tuning).
Perché a volte 'inventa'
Hai presente quando qualcuno, pur di non ammettere 'non lo so', risponde con sicurezza dicendo una cosa inventata di sana pianta? Gli LLM fanno qualcosa di simile, e lo chiamiamo allucinazione. Il modello non ha un archivio di fatti verificati a cui attingere: ha solo il suo istinto su 'quale parola suona giusta dopo'. Per questo può comporre una frase grammaticalmente perfetta, sicura, scorrevole — e completamente falsa, come una citazione mai esistita o una data sbagliata.
Non sta mentendo, perché non ha intenzioni: sta semplicemente scegliendo le parole più probabili anche quando la verità gli è ignota. Ecco perché su nomi, numeri, citazioni e fonti conviene sempre verificare.
La manopola della creatività: la temperatura
C'è infine un'impostazione che decide quanto il modello sarà prevedibile o sorprendente: la temperatura. Immaginala come la manopola del volume, ma per la fantasia.
Con temperatura bassa il modello sceglie quasi sempre la parola più probabile: risposte prudenti, coerenti, ripetibili — perfette per istruzioni tecniche o risposte precise. Con temperatura alta si concede di pescare ogni tanto parole meno scontate: risposte più creative e varie, ideali per inventare una storia o un nome di fantasia, ma anche più a rischio di derive bizzarre. È la stessa differenza tra un cuoco che segue la ricetta alla lettera e uno che improvvisa: a volte nasce un piatto geniale, a volte un pasticcio.
Il viaggio di una risposta, in sei tappe
- Tokenizzazione — il testo viene spezzato in pezzetti gestibili.
- Embedding — ogni pezzetto diventa una posizione su una mappa di significati.
- Attenzione — il modello pesa quali parole contano di più nel contesto.
- Previsione — indovina il token successivo, una parola alla volta.
- Addestramento — pre-addestramento sul testo del mondo, poi fine-tuning mirato.
- Temperatura — la manopola che decide quanto sarà prudente o creativo.
Domande che forse ti stai facendo
Non nel senso in cui lo intendiamo noi. Non ha coscienza né esperienza del mondo: riconosce schemi nel linguaggio e prevede cosa è plausibile dire dopo. Il risultato sembra comprensione, ma sotto c'è un calcolo di probabilità su enormi quantità di testo, non un pensiero come il tuo.
Perché 'indovinare la parola dopo' miliardi di volte, avendo letto quasi tutto lo scrivibile, porta lontano. Per prevedere bene la prossima parola in testi complessi, il modello ha dovuto assorbire grammatica, fatti ricorrenti, stili e ragionamenti. L'intelligenza apparente nasce dall'accumulo di tantissime previsioni fatte molto bene.
Per orientarti, spiegare un concetto o avere una bozza, è ottimo. Per fatti precisi — numeri, date, nomi, citazioni, fonti — verifica sempre, perché può allucinare con tono sicurissimo. Trattalo come un collaboratore brillante ma smemorato: utilissimo, ma da ricontrollare sulle cose che contano.