音频媒体文件

Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback
2025-05-16 21:06

该讲座由斯坦福大学的Jesse Mu博士主讲,核心内容是大型语言模型(LLM)中的提示(prompting)、指令微调(instruction fine-tuning)以及从人类反馈中强化学习(RLHF),这些技术是驱动近期如ChatGPT等聊天机器人发展的关键。 讲座首先提及了课程的一些安排,包括项目提案截止、作业提交以及课程反馈调查。 随后,讲座深入探讨了大型语言模型的发展趋势:模型规模持续扩大,训练数据量不断增加。这使得LLM不仅能预测文本序列,还开始展现出对世界更深层次的理解,例如学习句法、共指消解、情感分析,甚至发展出初步的“世界模型”能力。一个例子表明,LLM能根据输入文本中描述的人物背景(如是否为物理学家)来推断其对物理现象(如真空环境下保龄球和树叶同时落地)的认知。此外,LLM在处理百科知识、数学推理、代码生成乃至医学文本方面也显示出潜力。 讲座的主要目标是阐释如何将仅能预测下一个词的基础语言模型,逐步转化为能执行多样化任务的智能助手,类似ChatGPT。为此,讲座计划分阶段介绍三种技术路径: 1. 零样本(zero-shot)和少样本(few-shot)学习; 2. 指令微调; 3. 从人类反馈中强化学习(RLHF)。 讲座接着详细介绍了零样本和少样本学习。回顾了早期的GPT模型(2018年,1.17亿参数),它是一个仅解码器的语言模型,通过预训练来提升下游任务的性能。随后发布的GPT-2(2019年,15亿参数)在模型规模和训练数据(40GB的WebText数据集,通过筛选Reddit高质量链接构建)上都有显著提升。GPT-2的重要贡献在于揭示了语言模型具备“无监督多任务学习”的能力,特别是零样本学习。这意味着模型无需针对特定任务进行额外的梯度更新或微调,仅通过设计合适的输入提示(将任务转化为序列预测问题),就能执行多种未曾明确训练过的任务。例如,通过提供上下文和问题,让模型续写答案来进行问答;或者通过比较不同句子序列的生成概率来解决需要世界知识的代词消歧任务(如Winograd模式挑战)。GPT-2在当时仅凭零样本学习就在多个语言建模基准测试中取得了领先水平,且无需针对特定任务进行微调。

大型语言模型 自然语言处理 提示工程 指令微调 RLHF 强化学习 零样本学习 少样本学习 链式思维 AI对齐 奖励模型
已摘要 阅读时间:14 分钟(4761 个字) 1 summary version
Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 14 - Reasoning and Agents by Shikhar Murty
2025-05-16 21:03

该讲座主要探讨了语言模型在推理领域的应用。首先,讲座定义了推理是利用事实和逻辑得出答案的过程,并区分了演绎推理、归纳推理和溯因推理三种主要类型,同时提及形式与非形式推理,指出讲座重点关注多步骤的非形式演绎推理。 接着,讲座探讨了通过提示工程(prompting)引导大型语言模型进行推理的多种方法。其中包括“思维链”(Chain-of-Thought, CoT)提示,即引导模型在给出答案前生成推理步骤,可通过上下文示例或“让我们一步一步思考”等简单指令实现。“自洽性”(Self-Consistency)方法通过对同一问题采样多个推理路径和答案,并选取最常见答案来提升准确性,其效果优于简单模型集成。针对多步骤推理,提出了“由少至多”(Least-to-Most)提示法,它将复杂问题分解为子问题,模型逐步解决并整合答案,显示了其处理复杂推理的潜力,尽管其根本性优势尚待验证。 最后,讲座讨论了超越提示工程的策略,如通过知识蒸馏将推理能力赋予小型语言模型。以Orca模型为例,它通过微调使小型Llama模型模仿GPT-4生成的解释和推理过程。训练数据通过结合Flan V2等数据集的指令与GPT-4在特定系统提示下(如要求分步解释)生成的详尽回答来构建。讲座强调,相关领域的研究多为近三四年成果,尚有许多未解问题。

自然语言处理 (NLP) 大型语言模型 (LLMs) AI推理 AI智能体 提示工程 思维链 (CoT) 知识蒸馏 视觉语言模型 (VLMs) 机器学习 AI研究 模型评估
已摘要 阅读时间:14 分钟(4652 个字) 2 summary versions
Hardware-aware Algorithms for Sequence Modeling - Tri Dao | Stanford MLSys #87
2025-05-16 20:59

本次讲座是斯坦福MLSys研讨会第87期,主讲人Tri Dao讨论了面向序列建模的硬件感知算法。讲座分为两部分:第一部分关注改进Transformer中的自注意力机制,指出其在处理长序列时存在时间和内存复杂度呈平方增长的问题。通过IO感知算法(如FlashAttention),可以显著提高注意力计算的速度和内存效率,从而支持更长的上下文并提升模型质量。同时介绍了长上下文大型语言模型推理的优化方法。第二部分探讨了二次以下时间复杂度的模型架构,如循环神经网络(RNN)、门控卷积和结构化状态空间模型(SSM)。讲座指出这些模型的关键弱点在于缺乏基于内容的推理能力,并提出了选择机制来解决此问题。尽管这会影响卷积效率,但设计了硬件感知的并行算法。将这些选择性SSM集成到简化架构Mamba中,该模型在语言建模任务上达到或超过了现代Transformer的性能,并具有更快的推理速度和更长的上下文处理能力。

MLSys 硬件感知算法 序列建模 GPU内存 FlashAttention 注意力机制 Mamba模型 状态空间模型 长上下文 LLM推理 性能优化
已摘要 阅读时间:11 分钟(3649 个字) 2 summary versions
Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy
2025-05-16 20:54

该转录文本主要介绍了斯坦福大学CS25课程“Transformers United V2”的概览。课程聚焦于深度学习模型“Transformers”,该模型自2017年问世以来,已革新自然语言处理(NLP)领域,并广泛应用于计算机视觉、强化学习、生物学等多个方向。课程旨在深入解析Transformers的工作原理、不同类型及其应用,并邀请了领域内专家进行分享。 几位课程讲师进行了自我介绍,并阐述了课程目标,即帮助学生理解Transformers的运作机制、应用场景及前沿研究动态。 随后,内容回顾了Transformers的发展历程:从2017年论文《Attention is All You Need》的提出,标志着Transformers时代的开启,到其在NLP领域的迅速普及,再到2018-2020年间扩展至计算机视觉、生物信息学等领域,以及2021年至今生成模型(如GPT、DALL-E、ChatGPT)的爆发式增长。讲师强调了Transformers在处理长序列、理解上下文方面的优势,超越了早期的RNN和LSTM模型。 目前,Transformers在零样本泛化、多模态任务、音频与艺术创作、代码生成以及初步的逻辑推理方面展现出强大能力,并通过强化学习与人类反馈(RLHF)技术提升了与人类的交互和对齐。 展望未来,Transformers有望在视频理解与生成、金融、商业等领域取得突破,甚至可能用于文学创作。发展方向包括通用智能体、特定领域模型(如医疗GPT、法律GPT)及“专家模型”混合系统。然而,实现这些愿景面临诸多挑战: 1. **记忆与交互**:当前模型缺乏长期记忆和持续学习能力。 2. **计算复杂度**:注意力机制的二次方复杂度亟待优化。 3. **可控性**:需增强对模型输出的精确控制。 4. **与人类认知对齐**:需进一步研究如何使模型的工作方式更接近人类大脑。 最后,一位讲师(可能为Andrej Karpathy)简述了AI领域的发展背景,以此引出设立Transformers课程的初衷。

Transformers 深度学习 自然语言处理 注意力机制 模型架构 人工智能 计算机视觉 GPT模型 上下文学习 AI发展史 计算效率 未来AI
已摘要 阅读时间:14 分钟(4802 个字) 3 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert
2025-05-16 20:47

斯坦福大学CS224N课程邀请了AI2的Nathan Lambert就“DPO之后的发展”发表演讲。Lambert博士首先回顾了语言模型的发展历程,强调了从强化学习背景转向语言模型研究的趋势,并指出后训练阶段(如RLHF和DPO)对于大型语言模型的重要性日益增加。他提到,像Meta这样的大公司在后训练阶段使用的数据量远超研究机构,这给学术研究带来了挑战。讲座的核心在于探讨DPO出现后,模型对齐领域的研究方向和面临的问题。Lambert解释了DPO作为去年的一大突破,使得更多人能够参与到对齐工作中。他还区分了指令微调、监督微调、对齐、RLHF等概念,并强调指令微调(如添加系统提示)仍是当前模型微调的基础,它使模型能够更好地理解和遵循用户指令。

LLM Alignment DPO RLHF Post-training Large Language Models Preference Tuning Instruction Tuning Reward Modeling Online Learning Data Bottlenecks NLP AI Research
已摘要 阅读时间:14 分钟(4845 个字) 2 summary versions
Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 12 - Efficient Training, Shikhar Murty
2025-05-16 20:37

该讲座主要讨论了大规模神经网络的高效训练方法。首先,讲师发布了课程项目提案的评分即将公布以及项目里程碑要求的通知。 核心内容从解释计算机中数字(特别是浮点数)的表示方式开始。FP32(32位浮点数)占用4字节内存,具有较大的表示范围和较高的精度。然而,训练大型模型时,FP32可能导致显存不足(OOM)。 为节省显存,可以使用FP16(16位浮点数),它将内存需求减半,但代价是牺牲了表示范围和精度。这会导致非常小的数值变为零,非常大的数值变为NaN,同时存在舍入误差,尤其影响梯度计算,许多小梯度会因范围限制而直接归零,不利于模型训练。 为解决此问题,引入了混合精度训练(Mixed Precision Training)。一种方案是同时使用FP32和FP16:模型权重保留一份FP32的主副本(master weights),前向和反向传播时将权重转换为FP16进行计算,得到FP16格式的梯度,然后将梯度转换回FP32更新主权重。但这种方法仍存在问题,因为FP16梯度在转换回FP32前可能已经因范围过小而丢失信息(变为零)。 进一步的解决方案是损失缩放(Loss Scaling):在前向传播得到损失后,将损失乘以一个较大的缩放因子,这会相应地放大梯度值,使得原本在FP16下会变成零的梯度能够被保留。计算完FP16梯度后,将其转换回FP32,再除以缩放因子还原,然后更新FP32主权重。PyTorch中可通过`GradScaler`和`autocast`实现。但损失缩放的缺点是需要小心调整缩放因子,以避免NaN并适应网络动态。 最后,讲座介绍了另一种16位浮点格式BFloat16(Brain Float 16)。BFloat16通过牺牲部分精度(尾数位数减少)来保持与FP32相同的指数位数,从而拥有与FP32相同的动态范围,但精度低于FP16。实践证明,这种精度损失对神经网络训练通常是可以接受的,并且使用BFloat16通常可以避免复杂的梯度缩放问题。

高效训练 深度学习训练 混合精度训练 BFloat16 分布式训练 FSDP 参数高效微调 LoRA GPU显存优化 大规模模型训练
已摘要 阅读时间:9 分钟(3078 个字) 3 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 11 - Benchmarking by Yann Dubois
2025-05-16 20:35

该演讲主要讨论了机器学习领域中基准测试和评估的核心作用。主讲人Yann Dubois指出,评估贯穿模型从训练、开发、选择到部署及学术发表的整个生命周期,但不同阶段对评估方法(如速度、成本、可微性、可信度、任务相关性、指标绝对性)有不同侧重。学术基准测试(如MMLU)对推动领域进步至关重要,强调可复现性、标准化及长期有效性,而非指标的短期完美。演讲进一步区分了NLP中的两类评估任务:封闭式任务(如情感分析、文本蕴含),其答案固定,评估方法成熟;以及开放式任务(如文本生成),其答案多样,评估更复杂。

自然语言处理 机器学习 深度学习 基准测试 模型评估 大型语言模型 文本生成 文本分类 评估指标 数据污染 人工评估 LLM评估器
已摘要 阅读时间:14 分钟(4806 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma
2025-05-15 22:42

斯坦福大学博士生 Archit Sharma 介绍了大型语言模型的后训练(post-training)过程,旨在阐释如何从基础的预训练模型发展到如 ChatGPT 这样强大的模型。 他首先强调了“规模法则”(scaling laws)的重要性:随着模型参数量(计算量从10^24浮点运算增至超过10^26)和训练数据量(从2022年的1.4万亿词元增至2024年Llama 3的约15万亿词元)的持续增长,模型能力不断提升,但同时也带来了巨大的成本投入。 预训练不仅让模型学习事实知识、语法、语义和多种语言,更重要的是,模型开始展现出理解人类信念、行为和意图的深层能力。例如,模型能根据情境中人物的背景知识预测其不同反应,或在数学、编程(如Copilot辅助编码)、医学(初步诊断,但不建议作为医疗建议)等领域展现应用潜力。尽管预训练任务本质上是预测下一个词元,但模型正演变为通用的多任务助手。 讲座的核心内容将依次探讨: 1. 零样本(Zero-Shot)和少样本(Few-Shot)上下文学习(In-Context Learning)。 2. 指令微调(Instruction fine-tuning)。 3. 基于人类偏好的优化方法(如DPO和RLHF)。 4. 探讨当前技术的局限与未来发展方向。 以GPT系列模型为例,从GPT-1到GPT-2,通过扩大模型规模和数据量,GPT-2展现了零样本学习能力,即模型无需针对特定任务进行额外训练,仅通过巧妙设计提示(prompting),就能执行如文本摘要、问答等多种任务。

大型语言模型 后训练 指令精调 RLHF DPO 上下文学习 零样本学习 少样本学习 提示工程 AI对齐 规模法则 ChatGPT
已摘要 阅读时间:12 分钟(3939 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 6 - Sequence to Sequence Models
2025-05-15 22:01

该讲座是斯坦福CS224N课程关于自然语言处理与深度学习的第六讲,主要延续了先前关于语言模型和循环神经网络(RNN)的讨论。 核心内容包括: 1. **回顾与展望**:讲座首先回顾了语言模型(预测下一个词的系统)和RNN(能处理任意长度序列输入、每步共享权重并可选输出的神经网络架构)的基本概念。接着预告将介绍一种更高级的RNN——长短期记忆网络(LSTM),并在后续内容中探讨神经机器翻译。 2. **语言模型评估**:详细阐述了评估语言模型的标准指标——困惑度(Perplexity)。解释了其计算方法(本质上是交叉熵的指数形式)、历史背景(由Fred Jelinek提出,旨在用一个更直观的数值来表示模型预测的不确定性,相当于在多少个选项中均匀选择),以及其意义(更低的困惑度代表更好的模型性能,能更准确地预测人类书写的文本)。讲座还提及,比较困惑度时需注意所使用的对数底(如底数为2或自然对数e)。 3. **模型性能演进**:通过困惑度数值展示了语言模型的发展历程。从传统的N-gram模型(如使用Kneser-Ney平滑,困惑度约67),到早期RNN与其它模型结合(困惑度约51),再到LSTM的应用使得困惑度显著降低(例如降至43或30,相当于交叉熵减少约1比特)。讲座指出,当前最先进的语言模型困惑度已能达到个位数。 4. **RNN的挑战与LSTM的动机**:重点阐述了标准RNN在训练过程中面临的“梯度消失”和“梯度爆炸”问题。这些问题源于在反向传播过程中,损失函数对参数的梯度会随着序列长度的增加而连乘多个雅可比矩阵(在简化情况下,主要是权重矩阵Wh)。如果这些矩阵的范数持续小于1,梯度会趋近于零(梯度消失),导致模型难以学习长距离依赖;如果持续大于1,梯度会指数级增长(梯度爆炸)。这一缺陷是引入LSTM等更复杂RNN结构的主要动机。

自然语言处理 深度学习 循环神经网络 LSTM 语言模型 困惑度 梯度消失 序列到序列模型 神经机器翻译 编码器-解码器模型
已摘要 阅读时间:9 分钟(3048 个字) 2 summary versions
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining
2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模(subword modeling)技术,该技术通过将词汇分解为子词单元(如字符、字符组合),以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言(如斯瓦希里语有大量动词变位)时的局限性,从而提升模型对词汇的覆盖和泛化能力,避免将未知词统一映射为“unk”符号导致信息丢失。随后,课程计划探讨预训练的动机(从词嵌入出发)、三种主要的预训练方法(解码器、编码器、编码器-解码器架构)、预训练赋予模型的能力,以及大型模型和上下文学习(in-context learning)等相关主题。讲座开始时还提及了课程作业(如第五项作业将涵盖预训练、Transformer等内容)和项目提案的截止日期安排。

NLP 预训练 大语言模型 Transformer 子词建模 掩码语言建模 上下文学习 微调 BERT GPT 思维链提示
已摘要 阅读时间:12 分钟(4127 个字) 2 summary versions