StreamSparkAI

音频媒体文件

标签搜索结果 for "指令遵循"

2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF

2025-06-21 17:02

从 GPT-3 到 ChatGPT：RLHF 与语言模型对齐方法详解

模型对齐 RLHF 大语言模型 SFT (监督微调) DPO (直接偏好优化) 指令遵循 AI安全奖励模型 PPO

已摘要阅读时间：7 分钟（2314 个字） 2 summary versions

Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 12: Evaluation

2025-06-06 15:22

语言模型评估的多维视角与挑战

语言模型评估人工智能基准测试评估危机数据污染安全性评估智能体评估 Chatbot Arena MMLU 困惑度指令遵循

已摘要阅读时间：11 分钟（3703 个字） 2 summary versions