NLP e LLM
Direct Preference Optimization
Ottimizzazione diretta. Metodo che allinea un modello alle preferenze umane senza addestrare un modello di ricompensa separato.
Gestisci i cookie usati su Glossario Italiano. Puoi modificare le preferenze in qualsiasi momento dal link "Gestisci preferenze" in fondo a ogni pagina.