音频媒体文件

清除
标签搜索结果 for "Instruction Tuning"
应用深度学习 | ADL TA Recitation: LLM LoRA Training 大型语言模型太大怎么调整呢?
2025-06-07 14:18

LLM训练技巧与LoRA方法解析

大型语言模型 LoRA QLoRA 参数高效微调 模型微调 模型量化 GPU显存优化 人工智能 Instruction Tuning bfloat16
已摘要 阅读时间:5 分钟(1691 个字) 1 summary version
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert
2025-05-16 20:47

斯坦福大学CS224N课程邀请了AI2的Nathan Lambert就“DPO之后的发展”发表演讲。Lambert博士首先回顾了语言模型的发展历程,强调了从强化学习背景转向语言模型研究的趋势,并指出后训练阶段(如RLHF和DPO)对于大型语言模型的重要性日益增加。他提到,像Meta这样的大公司在后训练阶段使用的数据量远超研究机构,这给学术研究带来了挑战。讲座的核心在于探讨DPO出现后,模型对齐领域的研究方向和面临的问题。Lambert解释了DPO作为去年的一大突破,使得更多人能够参与到对齐工作中。他还区分了指令微调、监督微调、对齐、RLHF等概念,并强调指令微调(如添加系统提示)仍是当前模型微调的基础,它使模型能够更好地理解和遵循用户指令。

LLM Alignment DPO RLHF Post-training Large Language Models Preference Tuning Instruction Tuning Reward Modeling Online Learning Data Bottlenecks NLP AI Research
已摘要 阅读时间:14 分钟(4845 个字) 2 summary versions