音频媒体文件
标签搜索结果 for "奖励模型"
2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF
2025-06-21 17:02
模型对齐
RLHF
大语言模型
SFT (监督微调)
DPO (直接偏好优化)
指令遵循
AI安全
奖励模型
PPO
已摘要
阅读时间:7 分钟(2314 个字)
2 summary versions
Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback
2025-05-16 21:06
大型语言模型
自然语言处理
提示工程
指令微调
RLHF
强化学习
零样本学习
少样本学习
链式思维
AI对齐
奖励模型
已摘要
阅读时间:14 分钟(4761 个字)
1 summary version