Il glossario italiano di tecnologia e automotive

Deep learning: come una rete neurale impara davvero (senza che nessuno la programmi)

Guru Glossario Italiano 13 Jun 2026 9 min di lettura

13Giu

Immagina di insegnare a un bambino piccolo a riconoscere un gatto. Non gli spieghi le regole — non gli dici 'ha quattro zampe, le orecchie a punta, i baffi'. Gli mostri semplicemente tanti gatti, e ogni volta che ne indica uno giusto annuisci, ogni volta che sbaglia lo correggi. Dopo un po', senza che nessuno gli abbia dato istruzioni precise, il bambino 'sa' cos'è un gatto. Il deep learning funziona in modo sorprendentemente simile: nessuno scrive le regole, la macchina le scopre da sola guardando esempi. Questo articolo ti porta dentro quel processo, passo dopo passo, senza una sola formula.

Cosa capirai leggendo

Capirai davvero come una rete neurale impara: cosa sono i neuroni e i 'pesi', perché impara per tentativi ed errori, e come fa a migliorare da sola fino a riconoscere volti, tradurre frasi o scrivere testi — il tutto spiegato con immagini di vita quotidiana.

Il mattone di tutto: il neurone e le sue manopole

Una rete neurale è fatta di tantissime unità minuscole, i neuroni artificiali. Non sono nulla di biologico: sono solo piccole 'centraline' che ricevono dei numeri in entrata, li combinano e producono un numero in uscita. Pensa a un mixer da DJ: tanti cursori che alzano o abbassano l'importanza di ogni canale, e una sola musica che esce alla fine.

Quei cursori sono i pesi. Ogni informazione che entra nel neurone passa attraverso una manopola che decide quanto quella informazione conta. Se sto valutando se una mail è spam, la parola 'gratis' avrà una manopola alzata (conta molto), mentre la parola 'buongiorno' avrà una manopola quasi a zero (conta poco). Il segreto è tutto qui: imparare significa regolare le manopole. Una rete moderna ne ha milioni, a volte miliardi. Nessuno le regola a mano: lo fa la macchina stessa, per tentativi.

Gli strati: dai bordi ai volti

I neuroni non lavorano da soli, ma in fila, organizzati in strati (in inglese layer). L'informazione entra dal primo strato, viene elaborata, passa al secondo, poi al terzo, e così via — da cui il nome 'deep', profondo: tanti strati uno dietro l'altro.

La cosa affascinante è cosa succede strato dopo strato. Immagina una catena di montaggio che assembla il riconoscimento di un volto:

Il primo strato nota solo cose elementari: un bordo, una macchia chiara, una linea inclinata.
Il secondo strato mette insieme quei bordi e riconosce forme: un cerchio, un angolo, una curva.
Gli strati successivi combinano le forme in parti sensate: un occhio, un naso, una bocca.
L'ultimo strato mette tutto insieme e dice: 'questo è il volto di Maria'.

È come quando guardi un quadro puntinista: da vicino vedi solo puntini di colore, ma allontanandoti i puntini diventano foglie, poi alberi, poi un intero paesaggio. Ogni strato 'si allontana' un po' di più dal dettaglio grezzo per cogliere un significato più grande. E nessuno ha deciso che il secondo strato dovesse occuparsi delle forme: lo ha scoperto da solo, durante l'addestramento.

Imparare per tentativi: la prima cosa che fa è sbagliare

Quando una rete nasce, le sue manopole sono messe a caso. È come un cuoco al primo giorno che butta gli ingredienti senza criterio: il primo piatto sarà immangiabile. La rete, davanti alla prima immagine di un gatto, risponderà magari 'tostapane' con totale sicurezza. Va benissimo così: l'errore è il punto di partenza, non un incidente.

L'addestramento è proprio questo ciclo ripetuto milioni di volte: la rete fa un tentativo, qualcuno misura quanto ha sbagliato, e le manopole vengono ritoccate per sbagliare un po' meno la volta dopo. Ripeti, ripeti, ripeti — finché il piatto diventa buono.

Il 'voto' all'errore: la funzione di perdita

Ma chi decide quanto la rete ha sbagliato? Serve un giudice severo che dia un voto. Questo giudice è la funzione di perdita (in inglese loss): un numero che dice quanto la risposta della rete è lontana da quella giusta. Risposta perfetta? Voto vicino a zero. Errore clamoroso? Voto altissimo.

È esattamente come un insegnante che corregge un compito con il rosso: più errori, più rosso. L'unico obiettivo di tutto l'addestramento è uno solo: abbassare quel voto il più possibile. Tutta l'intelligenza che vedi emergere nasce da questo ostinato inseguire un voto più basso.

Scendere la collina nella nebbia: la discesa del gradiente

E qui arriva il problema vero. Le manopole sono milioni: come fai a capire quali girare, e in che verso, per abbassare il voto? Provarle tutte sarebbe impossibile, ci vorrebbero più anni dell'età dell'universo.

La soluzione ha un nome tecnico, discesa del gradiente, ma un'immagine semplicissima. Immagina di essere in cima a una collina avvolta dalla nebbia fitta e di voler raggiungere il punto più basso della valle. Non vedi nulla a un metro di distanza. Cosa fai? Tasti il terreno con il piede, senti da che parte scende, e fai un passo in quella direzione. Poi ti fermi, tasti di nuovo, fai un altro passo in discesa. Ripetendo questo gesto, prima o poi arrivi in fondo.

La rete fa esattamente questo. Il 'punto più basso' è l'errore minimo. A ogni passo sente in che direzione le manopole vanno girate per scendere un pochino, e le gira di quel pochino. Quanto è grande ogni passo lo chiamiamo tasso di apprendimento: passi troppo lunghi e rischi di scavalcare la valle, passi troppo corti e ci metti un'eternità.

In parole povere: imparare è scendere una collina al buio

La rete non sa dove sta la risposta giusta. Sa solo, a ogni passo, in che direzione l'errore diminuisce — e fa un piccolo passo da quella parte. Ripetendolo milioni di volte, finisce in fondo alla valle, dove sbaglia pochissimo. Tutto qui: niente magia, solo tantissimi piccoli aggiustamenti.

Di chi è la colpa? La backpropagation

Resta un'ultima domanda spinosa. Quando la rete sbaglia, l'errore esce dall'ultimo strato — ma la colpa è distribuita su milioni di manopole sparse in tutti gli strati. Come si fa a capire quanto ciascuna ha contribuito allo sbaglio?

Qui entra in scena la backpropagation (letteralmente 'propagazione all'indietro'). Pensa a una cucina di un ristorante dove esce un piatto troppo salato. Lo chef non punisce a caso: risale la catena. Chiede al cuoco che ha impiattato, che rimanda al cuoco della salsa, che rimanda a chi ha dosato il sale. La responsabilità viene fatta risalire all'indietro, dall'uscita verso l'origine, e ognuno riceve la sua quota di colpa proporzionale a quanto ha sbagliato.

La backpropagation fa proprio questo con la matematica: parte dall'errore finale e lo 'spalma' all'indietro su tutti gli strati, dicendo a ogni singola manopola di quanto deve correggersi. È questo meccanismo, abbinato alla discesa nella nebbia, che permette a reti enormi di imparare in modo coordinato invece che caotico.

Imparare a memoria non è capire: l'overfitting

C'è un trabocchetto in cui le reti cadono facilmente. Torniamo a scuola: c'è lo studente che capisce la materia e quello che impara il libro a memoria. Finché l'interrogazione ricalca il libro, vanno pari. Ma se l'insegnante cambia leggermente la domanda, chi ha capito risponde bene, chi ha memorizzato va nel pallone.

Una rete che 'memorizza' invece di capire soffre di overfitting: va benissimo sugli esempi che ha già visto durante l'addestramento, ma crolla davanti a un caso nuovo. Ha imparato i singoli gatti delle foto di allenamento, non il concetto di gatto. Per evitarlo si usano vari accorgimenti — mostrarle tanti esempi diversi, metterle alla prova su dati mai visti, impedirle di diventare troppo 'fissata' su un dettaglio. L'obiettivo è sempre che generalizzi, cioè se la cavi anche con ciò che non ha mai incontrato.

Perché servono montagne di dati e di calcolo

Ora si capisce perché il deep learning ha avuto bisogno di aspettare i nostri tempi. Regolare milioni di manopole per tentativi richiede due cose: tantissimi esempi da cui imparare e tantissima potenza di calcolo per fare i conti.

I dati sono come le ore di pratica di un musicista: nessuno diventa bravo con tre lezioni. Una rete ha bisogno di milioni di immagini, frasi o esempi per cogliere i pattern davvero generali e non i casi particolari. E ogni singolo passo di apprendimento richiede una quantità mostruosa di calcoli — ecco perché si usano schede grafiche potenti, le stesse che muovono i videogiochi, capaci di fare moltissimi conti in parallelo, come un'aula con mille persone che calcolano insieme invece di una sola alla lavagna.

Architetture famose: occhi per le immagini, orecchie per le parole

Non tutte le reti sono fatte uguali. La 'forma' di una rete — quanti strati, come sono collegati — si chiama architettura, e si sceglie in base al problema, come scegli un attrezzo diverso per ogni mestiere.

Due architetture hanno cambiato la storia recente:

Le reti convoluzionali sono specializzate nelle immagini. Funzionano come un occhio che scorre la foto con una piccola lente, cercando lo stesso dettaglio (un bordo, un colore) in ogni angolo. Sono dietro al riconoscimento facciale, alle diagnosi su radiografie, alla guida assistita.
I transformer hanno rivoluzionato il linguaggio. Il loro trucco è l'attenzione: mentre leggono una frase, sanno decidere quali parole guardare per capire le altre — proprio come tu, leggendo 'lui la prese', cerchi all'indietro a chi si riferiscono 'lui' e 'la'. Sono il motore dietro i traduttori automatici e gli assistenti che scrivono testi.

Sintesi: il deep learning in sei idee

Neuroni e pesi: tante centraline con manopole che decidono quanto conta ogni informazione.
Strati: in fila, riconoscono cose via via più complesse, dai bordi ai volti.
Funzione di perdita: il voto che misura quanto la rete ha sbagliato.
Discesa del gradiente: scendere la collina nella nebbia a piccoli passi, verso l'errore minimo.
Backpropagation: risalire all'indietro per dare a ogni manopola la sua quota di colpa.
Overfitting: il pericolo di imparare a memoria invece di capire davvero.

Domande che forse ti stai facendo

Dipende da cosa intendi per 'capire'. La rete non comprende come un essere umano: non ha coscienza né significato. Però scopre da sola schemi e regolarità così sottili che a noi sfuggirebbero, e li applica a casi nuovi. È più giusto dire che 'riconosce pattern' in modo straordinariamente efficace, non che pensa.

Nessuno scrive le regole, ma gli esseri umani scelgono gli esempi su cui si allena, l'obiettivo da raggiungere e come misurare l'errore. È un po' come educare: non controlli ogni pensiero, ma scegli con cura le esperienze. Per questo i dati di partenza sono delicatissimi: se contengono pregiudizi, la rete li imparerà fedelmente.

Perché non possiede buon senso: applica solo gli schemi visti durante l'allenamento. Davanti a una situazione fuori dalla sua esperienza può rispondere con grande sicurezza una sciocchezza, senza accorgersene. Non sa di non sapere — e questo è uno dei limiti più importanti da tenere a mente.

Continua il percorso

Articoli da leggere dopo questo:

Dentro gli LLM: come l'intelligenza artificiale capisce e scrive come noi Avanzato Tokenizzazione, embedding, attenzione e previsione della parola successiva: cosa succede davvero dentro un modello come ChatGPT quando legge la tua domanda e scrive la risposta. Spiegato con analogie quotidiane, senza una formula.
Intelligenza artificiale e machine learning: che differenza c’è? Intermedio Quando Netflix indovina il film giusto o il telefono riconosce la tua faccia, è “intelligenza artificiale” o “machine learning”? Non sono la stessa cosa: ecco perché.

Approfondisci ogni termine nel glossario Deep Learning — passa il mouse sulle parole sottolineate per una definizione al volo.

Torna al blog