Vai al contenuto
Come Impara un Modello Linguistico (LLM)?

Come "Impara" un Modello Linguistico di Grandi Dimensioni (LLM)?

Un viaggio interattivo nelle tre fasi chiave dell'addestramento.

Fase 1: Pre-addestramento (Pre-training)

Non Supervisionato

Immaginate uno studente incredibilmente curioso a cui viene data accesso all'intera biblioteca digitale del mondo (Internet, libri digitalizzati, articoli...). Lo studente non riceve compiti specifici, ma un unico obiettivo: leggere tutto e capire come funziona la lingua.

In questa fase, l'LLM "legge" miliardi di pagine di testo. Non gli diciamo cosa è giusto o sbagliato, ma impara pattern, grammatica, fatti, stili di scrittura, e persino capacità di ragionamento, semplicemente osservando come le parole sono usate insieme in contesti diversi. È come imparare la struttura di una lingua assorbendo un'enorme quantità di esempi reali.

Scala Dati: Terabyte di testo (equivalenti a milioni di libri)
Metafora: Assorbire conoscenza grezza da una biblioteca vastissima per costruire una comprensione generale del mondo e del linguaggio.

Fase 2: Ottimizzazione Specifica (Fine-tuning)

Supervisionato

Ora, il nostro studente molto colto ma generico deve prepararsi per compiti specifici. Immaginate un insegnante che fornisce esercizi mirati con domande e risposte corrette. "Se ti chiedo la capitale della Francia, rispondi Parigi". "Traduci questa frase dall'inglese all'italiano".

In questa fase, l'LLM viene addestrato su un set di dati più piccolo e di alta qualità, composto da coppie di input-output desiderati (esempi di domande e risposte corrette, istruzioni e completamenti appropriati). L'obiettivo è specializzare il modello per eseguire compiti specifici (rispondere a domande, tradurre, riassumere, scrivere codice...) in modo accurato, seguendo le istruzioni.

Scala Dati: Migliaia/Milioni di esempi curati di alta qualità
Metafora: Affinare le abilità generali con esercizi specifici forniti da un "insegnante", imparando a dare la risposta giusta a un compito preciso.

Fase 3: Allineamento (Alignment)

Apprendimento per Rinforzo (con Feedback Umano - RLHF)

Il nostro studente ora sa molte cose e sa svolgere compiti, ma potrebbe non essere sempre utile, onesto o innocuo nelle sue risposte. Deve imparare a interagire nel modo "giusto". Immaginate dei revisori (come docenti che valutano un tema) che confrontano diverse risposte possibili date dallo studente e indicano quale preferiscono, spiegando magari perché una è migliore (più chiara, più sicura, più educata).

In questa fase (spesso chiamata RLHF - Reinforcement Learning from Human Feedback), il modello genera diverse risposte a una stessa richiesta. Gli umani valutano queste risposte, classificandole dalla migliore alla peggiore. Questi giudizi vengono usati per addestrare un altro modello (il "reward model") che impara a prevedere quale risposta gli umani preferirebbero. Infine, l'LLM principale viene ulteriormente ottimizzato usando l'apprendimento per rinforzo per generare risposte che massimizzino il "punteggio di preferenza" previsto dal reward model. L'obiettivo è rendere l'LLM più utile, veritiero e sicuro.

Scala Dati: Decine/Centinaia di migliaia di confronti e valutazioni umane
Metafora: Imparare le "buone maniere" e l'efficacia comunicativa ricevendo feedback su quali risposte sono considerate migliori dagli umani.

Prova tu!

Immagina che un LLM dia queste due risposte a "Spiega la fotosintesi a un bambino". Quale preferiresti?

In Sintesi

L'addestramento di un LLM è un processo complesso e stratificato. Dal vasto apprendimento non supervisionato del pre-training, alla specializzazione guidata del fine-tuning, fino all'allineamento con i valori umani tramite feedback, ogni fase contribuisce a creare strumenti potenti e versatili, che continuano ad evolversi.

Comprendere queste fasi è fondamentale per utilizzare questi strumenti in modo consapevole ed efficace anche nel contesto educativo.

© 2025 Spiegazione Addestramento LLM per Docenti