音频媒体文件
标签搜索结果 for "指令遵循"
2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF
2025-06-21 17:02
模型对齐
RLHF
大语言模型
SFT (监督微调)
DPO (直接偏好优化)
指令遵循
AI安全
奖励模型
PPO
已摘要
阅读时间:7 分钟(2314 个字)
2 summary versions
Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 12: Evaluation
2025-06-06 15:22
语言模型评估
人工智能
基准测试
评估危机
数据污染
安全性评估
智能体评估
Chatbot Arena
MMLU
困惑度
指令遵循
已摘要
阅读时间:11 分钟(3703 个字)
2 summary versions