Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert
2025-05-16 20:47
斯坦福大学CS224N课程邀请了AI2的Nathan Lambert就“DPO之后的发展”发表演讲。Lambert博士首先回顾了语言模型的发展历程,强调了从强化学习背景转向语言模型研究的趋势,并指出后训练阶段(如RLHF和DPO)对于大型语言模型的重要性日益增加。他提到,像Meta这样的大公司在后训练阶段使用的数据量远超研究机构,这给学术研究带来了挑战。讲座的核心在于探讨DPO出现后,模型对齐领域的研究方向和面临的问题。Lambert解释了DPO作为去年的一大突破,使得更多人能够参与到对齐工作中。他还区分了指令微调、监督微调、对齐、RLHF等概念,并强调指令微调(如添加系统提示)仍是当前模型微调的基础,它使模型能够更好地理解和遵循用户指令。
LLM Alignment
DPO
RLHF
Post-training
Large Language Models
Preference Tuning
Instruction Tuning
Reward Modeling
Online Learning
Data Bottlenecks
NLP
AI Research
已摘要
阅读时间:14 分钟(4845 个字)
2 summary versions