StreamSparkAI

音频媒体文件

标签搜索结果 for "DPO (直接偏好优化)"

2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF

2025-06-21 17:02

从 GPT-3 到 ChatGPT：RLHF 与语言模型对齐方法详解

模型对齐 RLHF 大语言模型 SFT (监督微调) DPO (直接偏好优化) 指令遵循 AI安全奖励模型 PPO

已摘要阅读时间：7 分钟（2314 个字） 2 summary versions