音频媒体文件
标签搜索结果 for "模型对齐"
2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF
2025-06-21 17:02
模型对齐
RLHF
大语言模型
SFT (监督微调)
DPO (直接偏好优化)
指令遵循
AI安全
奖励模型
PPO
已摘要
阅读时间:7 分钟(2314 个字)
2 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 01 Overview and Tokenization
2025-05-13 16:29
语言模型
LLMs
从零构建
Transformer
Tokenization
BPE
并行计算
规模法则
模型训练
模型对齐
数据处理
GPU优化
已摘要
阅读时间:15 分钟(4925 个字)
2 summary versions