StreamSparkAI

Summary Notes

音频媒体文件

清除
标签搜索结果 for "SFT (监督微调)"
2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF
2025-06-21 17:02

从 GPT-3 到 ChatGPT:RLHF 与语言模型对齐方法详解

模型对齐 RLHF 大语言模型 SFT (监督微调) DPO (直接偏好优化) 指令遵循 AI安全 奖励模型 PPO
已摘要 阅读时间:7 分钟(2314 个字) 2 summary versions

© 2026 StreamSparkAI. 保留所有权利。 沪ICP备18047501号-2