音频媒体文件
标签搜索结果 for "RLHF"
2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF
2025-06-21 17:02
模型对齐
RLHF
大语言模型
SFT (监督微调)
DPO (直接偏好优化)
指令遵循
AI安全
奖励模型
PPO
已摘要
阅读时间:7 分钟(2314 个字)
2 summary versions
Google | Peter Grabowski | Introduction to Language Modeling
2025-05-18 16:18
大型语言模型 (LLM)
语言模型基础
Prompt Engineering
AI Agents
模型幻觉
检索增强生成 (RAG)
参数高效微调 (PEFT)
指令调优
RLHF
AI安全
自回归解码
Google Gemini
已摘要
阅读时间:22 分钟(7414 个字)
2 summary versions
Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback
2025-05-16 21:06
大型语言模型
自然语言处理
提示工程
指令微调
RLHF
强化学习
零样本学习
少样本学习
链式思维
AI对齐
奖励模型
已摘要
阅读时间:14 分钟(4761 个字)
1 summary version
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert
2025-05-16 20:47
LLM Alignment
DPO
RLHF
Post-training
Large Language Models
Preference Tuning
Instruction Tuning
Reward Modeling
Online Learning
Data Bottlenecks
NLP
AI Research
已摘要
阅读时间:14 分钟(4845 个字)
2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma
2025-05-15 22:42
大型语言模型
后训练
指令精调
RLHF
DPO
上下文学习
零样本学习
少样本学习
提示工程
AI对齐
规模法则
ChatGPT
已摘要
阅读时间:12 分钟(3939 个字)
2 summary versions
2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
2025-05-14 13:38
大型语言模型
LLMs
预训练
后训练
RLHF
DPO
数据处理
模型评估
规模法则
系统优化
词元化
已摘要
阅读时间:10 分钟(3289 个字)
3 summary versions