StreamSparkAI

Summary Notes

音频媒体文件

清除
标签搜索结果 for "指令遵循"
2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF
2025-06-21 17:02

从 GPT-3 到 ChatGPT:RLHF 与语言模型对齐方法详解

模型对齐 RLHF 大语言模型 SFT (监督微调) DPO (直接偏好优化) 指令遵循 AI安全 奖励模型 PPO
已摘要 阅读时间:7 分钟(2314 个字) 2 summary versions
Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 12: Evaluation
2025-06-06 15:22

语言模型评估的多维视角与挑战

语言模型评估 人工智能 基准测试 评估危机 数据污染 安全性评估 智能体评估 Chatbot Arena MMLU 困惑度 指令遵循
已摘要 阅读时间:11 分钟(3703 个字) 2 summary versions

© 2026 StreamSparkAI. 保留所有权利。 沪ICP备18047501号-2