StreamSparkAI

Summary Notes

音频媒体文件

清除
标签搜索结果 for "Preference Tuning"
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert
2025-05-16 20:47

斯坦福大学CS224N课程邀请了AI2的Nathan Lambert就“DPO之后的发展”发表演讲。Lambert博士首先回顾了语言模型的发展历程,强调了从强化学习背景转向语言模型研究的趋势,并指出后训练阶段(如RLHF和DPO)对于大型语言模型的重要性日益增加。他提到,像Meta这样的大公司在后训练阶段使用的数据量远超研究机构,这给学术研究带来了挑战。讲座的核心在于探讨DPO出现后,模型对齐领域的研究方向和面临的问题。Lambert解释了DPO作为去年的一大突破,使得更多人能够参与到对齐工作中。他还区分了指令微调、监督微调、对齐、RLHF等概念,并强调指令微调(如添加系统提示)仍是当前模型微调的基础,它使模型能够更好地理解和遵循用户指令。

LLM Alignment DPO RLHF Post-training Large Language Models Preference Tuning Instruction Tuning Reward Modeling Online Learning Data Bottlenecks NLP AI Research
已摘要 阅读时间:14 分钟(4845 个字) 2 summary versions

© 2026 StreamSparkAI. 保留所有权利。 沪ICP备18047501号-2