音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "Online Learning"

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert

2025-05-16 20:47

斯坦福大学CS224N课程邀请了AI2的Nathan Lambert就“DPO之后的发展”发表演讲。Lambert博士首先回顾了语言模型的发展历程，强调了从强化学习背景转向语言模型研究的趋势，并指出后训练阶段（如RLHF和DPO）对于大型语言模型的重要性日益增加。他提到，像Meta这样的大公司在后训练阶段使用的数据量远超研究机构，这给学术研究带来了挑战。讲座的核心在于探讨DPO出现后，模型对齐领域的研究方向和面临的问题。Lambert解释了DPO作为去年的一大突破，使得更多人能够参与到对齐工作中。他还区分了指令微调、监督微调、对齐、RLHF等概念，并强调指令微调（如添加系统提示）仍是当前模型微调的基础，它使模型能够更好地理解和遵循用户指令。

LLM Alignment DPO RLHF Post-training Large Language Models Preference Tuning Instruction Tuning Reward Modeling Online Learning Data Bottlenecks NLP AI Research

已摘要阅读时间：14 分钟（4845 个字） 2 summary versions