音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "奖励模型"

2025-06-21 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 15: Alignment - SFT/RLHF

2025-06-21 17:02

从 GPT-3 到 ChatGPT：RLHF 与语言模型对齐方法详解

模型对齐 RLHF 大语言模型 SFT (监督微调) DPO (直接偏好优化) 指令遵循 AI安全奖励模型 PPO

已摘要阅读时间：7 分钟（2314 个字） 2 summary versions

Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback

2025-05-16 21:06

该讲座由斯坦福大学的Jesse Mu博士主讲，核心内容是大型语言模型（LLM）中的提示（prompting）、指令微调（instruction fine-tuning）以及从人类反馈中强化学习（RLHF），这些技术是驱动近期如ChatGPT等聊天机器人发展的关键。讲座首先提及了课程的一些安排，包括项目提案截止、作业提交以及课程反馈调查。随后，讲座深入探讨了大型语言模型的发展趋势：模型规模持续扩大，训练数据量不断增加。这使得LLM不仅能预测文本序列，还开始展现出对世界更深层次的理解，例如学习句法、共指消解、情感分析，甚至发展出初步的“世界模型”能力。一个例子表明，LLM能根据输入文本中描述的人物背景（如是否为物理学家）来推断其对物理现象（如真空环境下保龄球和树叶同时落地）的认知。此外，LLM在处理百科知识、数学推理、代码生成乃至医学文本方面也显示出潜力。讲座的主要目标是阐释如何将仅能预测下一个词的基础语言模型，逐步转化为能执行多样化任务的智能助手，类似ChatGPT。为此，讲座计划分阶段介绍三种技术路径： 1. 零样本（zero-shot）和少样本（few-shot）学习； 2. 指令微调； 3. 从人类反馈中强化学习（RLHF）。讲座接着详细介绍了零样本和少样本学习。回顾了早期的GPT模型（2018年，1.17亿参数），它是一个仅解码器的语言模型，通过预训练来提升下游任务的性能。随后发布的GPT-2（2019年，15亿参数）在模型规模和训练数据（40GB的WebText数据集，通过筛选Reddit高质量链接构建）上都有显著提升。GPT-2的重要贡献在于揭示了语言模型具备“无监督多任务学习”的能力，特别是零样本学习。这意味着模型无需针对特定任务进行额外的梯度更新或微调，仅通过设计合适的输入提示（将任务转化为序列预测问题），就能执行多种未曾明确训练过的任务。例如，通过提供上下文和问题，让模型续写答案来进行问答；或者通过比较不同句子序列的生成概率来解决需要世界知识的代词消歧任务（如Winograd模式挑战）。GPT-2在当时仅凭零样本学习就在多个语言建模基准测试中取得了领先水平，且无需针对特定任务进行微调。

大型语言模型自然语言处理提示工程指令微调 RLHF 强化学习零样本学习少样本学习链式思维 AI对齐奖励模型

已摘要阅读时间：14 分钟（4761 个字） 1 summary version