详细摘要 摘要

生成:2025-05-18 16:04

摘要详情

音频文件
2024-04-11 | Stanford CS25: V4 Intuitions on Language Models
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-exp-03-25
已创建
2025-05-18 16:04:46

概览/核心摘要 (Executive Summary)

本次讲座由 OpenAI 的 Jason Wei 和 Hyung Won Chung 主讲,深入探讨了大型语言模型(LLMs)的内在直觉以及 Transformer 架构的历史演变与未来启示。

Jason Wei 首先分享了通过手动检查数据获得的关于 LLMs 工作原理的直觉。他提出,下一词预测本质上是“大规模多任务学习”,模型在预测过程中隐式学习语法、世界知识、情感分析乃至数学等多种任务。其次,扩展计算资源(模型大小 × 数据量)能够可靠地降低模型损失,遵循所谓的“扩展定律”。然而,尽管整体损失平稳下降,个别下游任务的性能可能会以“涌现”的方式突然提升,例如某些复杂推理或翻译能力在模型达到一定规模后才显现。他还讨论了“U型扩展”现象,即某些任务性能随模型规模先变差后变好,这可通过分解任务为子能力来解释。Jason 强调绘制扩展曲线对研究的重要性。

Hyung Won Chung 则从 Transformer 架构的历史演变角度,探讨了塑造人工智能未来的驱动力。他认为 AI 发展的核心驱动力是指数级增长的廉价计算资源及相关的扩展能力。遵循“惨痛的教训”(Bitter Lesson),即更通用的方法(结构更少、归纳偏置更弱)配合大规模数据和计算最终会胜出。他详细对比了 Encoder-Decoder、Encoder-Only 和 Decoder-Only 三种 Transformer 架构变体,指出 Decoder-Only 架构因其结构更少、参数共享更彻底,更符合扩展趋势。他分析了 Encoder-Decoder 架构中引入的额外结构(如独立的编解码器参数、特定的跨注意力模式、输入双向注意力)在早期特定任务(如机器翻译、特定格式的指令微调)和计算限制下的合理性,以及这些结构在当前大规模、通用化、多轮对话等场景下如何可能成为瓶颈或不再必要。他强调,理解这些结构演变有助于预测 AI 的未来发展。

两位讲者的分享共同揭示了规模(Scaling)在 LLM 发展中的核心作用,以及从简单目标(如下一词预测)中涌现复杂智能的奇妙现象,并提示研究者应关注通用性、减少不必要的结构限制,以适应 AI 持续扩展的趋势。

关于语言模型的直觉 (Jason Wei)

核心问题与方法论

  • 核心问题:大型语言模型为什么表现如此出色?[cite: 2]
  • 研究方法:通过手动检查数据来建立对模型工作原理的直觉。Jason 以自身学习分类肺癌图像的经历为例,强调亲身理解任务对获得洞察的重要性。
    • “观察数据就如同训练你自己的生物神经网络。你的生物神经网络在阅读数据后会产生许多观察结果。这些直觉非常有价值。”[cite: 4, 5]

语言模型回顾

  • 训练方式:通过下一词预测 (Next-word prediction) 进行预训练。
    • 示例:对于 "Dartmouth students like to",模型会输出词汇表中每个词的概率,如 P(study) = 0.3, P(drink) = 0.6 (讲者口述,与课件略有出入)。
  • 损失函数 (Loss):通常是未见过测试集上每个词的负对数概率,即 - log P(next word | previous words) [cite: 8]。
    • 目标是使真实下一词的概率尽可能接近1,从而最小化损失。
    • “最好的语言模型是那个能够最好地预测未见过的测试集的模型(即测试损失最低)”[cite: 10]。

直觉与洞察

直觉 1:大规模数据上的下一词预测是“大规模多任务学习”

  • 下一词预测本质上是在进行大规模的多任务学习 (massively multi-task learning) [cite: 11]。
  • 通过预测下一个词,模型可以隐式学习多种任务:
    • 语法 (Grammar):例如,"In my free time, I like to {code} (higher prob) than {banana}"。
    • 词汇语义 (Lexical semantics):例如,"I went to the store to buy papaya, dragon fruit, and {durian} (higher prob) than {squirrel}"。
    • 世界知识 (World knowledge):例如,"The capital of Azerbaijan is {Baku} (higher prob) than {London}"。
    • 情感分析 (Sentiment analysis):例如,"Movie review: I was engaged and on the edge of my seat the whole time. The movie was {good} (higher prob) than {bad}"。
    • 翻译 (Translation):例如,"The word for 'pretty' in Spanish is {bonita} (higher prob) than {hola}"。
    • 空间推理 (Spatial reasoning):例如,"Iroh went into the kitchen to make tea. Standing next to Iroh, Zuko pondered his destiny. Zuko left the {kitchen} (higher prob) than {store}"。
    • 数学问题 (Math question):例如,"Arithmetic exam answer key: $3+8+4={15} (higher prob) than {11}$"。
    • 这种学习是“极致的多任务学习”,包含数百万种潜在任务 [cite: 14]。
  • 任务并非总是清晰和“干净”的,有时非常任意 (arbitrary) [cite: 15, 18]。
    • 示例(维基百科关于乔·拜登的句子):
      • "Biden married Neilia" -> Hunter (世界知识) [cite: 17]
      • "Biden married Neilia Hunter" -> , (逗号预测) [cite: 17]
      • "Biden married Neilia Hunter," -> a (语法,但有些任意) [cite: 17]
      • "Biden married Neilia Hunter, a" -> student (非常任意的任务,可能是“woman”或其他) [cite: 17]
    • 结论:“成为一个语言模型并不容易!需要预测大量任意的词语。”[cite: 18]

直觉 2:扩展计算资源能够可靠地降低损失

  • 扩展计算资源 (Scaling Compute),即模型大小 (size of language model) × 数据量 (how much data you have),可以可靠地改善模型的损失函数值 [cite: 19]。
  • 扩展定律 (Scaling Laws):由 Kaplan et al. (2020) 开创性提出。性能随模型大小、数据集大小和计算量增加而平稳提升,这种趋势在计算资源跨越七个数量级的情况下依然保持 [cite: 20]。
    • 图示:X轴为计算资源 (log scale),Y轴为损失 (loss)。曲线平稳下降,不会饱和。
  • 为什么扩展有效?(推测性解释) [cite: 23, 24]
    • 小型语言模型 (Small LM)
      • 记忆昂贵,参数稀缺,必须选择性记忆事实。
      • 关注一阶相关性/启发式方法,努力预测合理内容,难以处理复杂情况。
    • 大型语言模型 (Large LM)
      • 乐于记忆长尾知识,参数充足,可以记住所有事实。
      • 发展复杂的启发式方法,尝试理解复杂模式以降低损失,力求最佳。

直觉 3:虽然整体损失平稳下降,但个别下游任务的性能可能会以涌现的方式提升

  • 整体损失可视为不同任务损失的加权和(如语法、世界知识、情感分析、数学等)[cite: 27]。
  • 当整体损失从4降低到3时,并非所有任务都会统一改善 [cite: 27, 28]。
    • 易饱和任务 (如语法、情感分析):损失迅速下降并达到瓶颈,后续改进空间小。
    • 困难任务 (如数学):损失可能在计算资源达到一定规模后才开始显著下降,甚至突然改善。
  • BIG-Bench 中 202 个下游任务的表现 [cite: 30] (讲者口述数据与课件略有出入,此处采用课件数据):
    • 平稳提升 (Smoothly increasing): 29% (如识别比喻)
    • 涌现能力 (Emergent abilities): 33% (如元素周期表知识、数学运算)。这些能力在模型规模达到一定程度后会突然出现,从小模型性能为零到大模型远超随机。
      • “如果你只训练了达到某个点的小型语言模型,你会预测语言模型永远不可能执行该任务。但实际上,当你训练更大的模型时,语言模型确实学会了执行该任务。所以在某种意义上,这是非常不可预测的。”
    • 与规模不相关 (Not correlated with scale): 13%
    • 持平 (Flat): 22% (任务太难,所有模型性能都为零)
    • 反向扩展 (Inverse scaling): 2.5% (性能随规模增大而下降)
  • 提示中的涌现示例:翻译任务 "Translate 'I like to play soccer and tennis' into Spanish." [cite: 31, 32]
    • 小模型 (ada, babbage):可能只会重复输入。
    • 较大模型 (curie):突然学会翻译,不再重复输入。

直觉 4:选择一组“聪明”的任务会导致反向或 U 型扩展

  • 引用重复任务示例:提示模型重复 "All that glisters is not glib"。正确答案应为 "glib" [cite: 34]。
    • 超小型 (Extra Small) LM: 可能输出 "glib" (正确)。
    • 小型 (Small) LM: 可能错误输出 "gold" (学习并应用了谚语 "All that glitters is not gold")。
    • 大型 (Large) LM: 可能再次输出 "glib" (正确),表现出 U 型性能曲线 [cite: 34, 35]。
  • 现象分解 (Decomposition) [cite: 36]:
    • 重复文本能力 (Repeat text):所有模型都表现良好。
    • 修正错误引用能力 (Fix wrong quote):超小型模型为0,小型和大型模型表现良好。
    • 遵循指令能力 (Follow instruction):超小型和小型模型为0,大型模型表现良好。
  • 解释U型曲线
    • 超小型模型:能重复,不能修正引用,不能遵循指令 -> 重复 -> "glib"。
    • 小型模型:能重复,能修正引用,不能遵循指令 -> 修正引用 -> "gold"。
    • 大型模型:三者皆能 -> 遵循指令 -> "glib"。

大型语言模型直觉总结与研究建议

  • 扩展模型大小和数据量预计将持续改善损失 [cite: 37]。
  • 整体损失平稳改善,但个别任务性能可能突然提升 [cite: 38]。
  • 研究建议:绘制扩展曲线 (Plot scaling curves) [cite: 39]。
    • 通过在不同数据量/计算量下评估模型性能,可以判断增加投入是否为好策略,或是否已达瓶颈。
  • 要更好地理解聚合指标,将其分解为各个类别进行分析 [cite: 40]。

Jason Wei 问答环节

  • 关于预训练数据好坏的区分:实践中并不严格区分,但理想情况下应仅在高质量数据上训练,例如过滤掉不可靠数据源。
  • 涌现能力和记忆长尾知识背后的模型机制:与模型规模(参数量)直接相关。更多层数可能编码更复杂的函数,更宽的网络可能编码更多事实。
  • 在涌现点之前损失函数是否有迹可循:很难预测。损失可能平稳改善然后突然出现性能跳跃。数据点不完美也使得预测困难。
  • 当前LLM的最大瓶颈:根据扩展定律,数据质量和计算量仍是关键。增加数据和模型规模预期会带来更好性能。
  • 对论文《大型语言模型的涌现能力是海市蜃楼吗?》的看法:鼓励读者自行阅读判断。Jason 个人认为LLM的能力是真实的,并非海市蜃楼,改变评估指标可能会呈现不同景象,但本质能力存在。

从 Transformer 的历史塑造人工智能的未来 (Hyung Won Chung)

研究变化本身

  • AI 发展迅速,与其耗费精力追赶最新进展,不如研究变化本身 (study the change itself) [cite: 43]。
    1. 识别变化背后的主要驱动力 (dominant driving forces) [cite: 44]。
    2. 理解这些主要驱动力 [cite: 44]。
    3. 预测未来的发展轨迹 [cite: 44]。
  • “扔笔”实验类比 [cite: 45]:
    1. 主要驱动力:重力。
    2. 理解重力:牛顿力学。
    3. 预测轨迹:$y(t)=\frac{1}{2}gt^{2}$。
  • 预测未来困难在于驱动力众多且相互作用复杂 [cite: 46]。但 AI 研究的复杂性可能比感觉上更接近“扔笔”模型,因其存在一个主导驱动力 [cite: 47]。

AI 的主要驱动力与研究者任务

  • AI 的主要驱动力计算能力的指数级增长 (exponentially cheaper compute)
    • Rich Sutton 的图表显示:每花费100美元获得的计算能力(FLOPS)呈指数增长,大约每5年提升10倍 [cite: 48]。
  • AI 研究者的任务:教会机器如何“思考” [cite: 49]。
    • 常见方法:“教会机器我们认为我们是如何思考的”,这会引入结构性限制,在规模扩大时可能成为瓶颈 [cite: 49]。我们并不完全理解我们自己是如何思考的。
  • “惨痛的教训” (Bitter lesson by Rich Sutton) [cite: 50]:过去70年AI的进步主要来自:
    1. 开发具有更弱建模假设、逐渐更通用的方法 ( progressively more general method with weaker modeling assumptions or inductive biases)。
    2. 增加更多的数据和计算资源(即扩大规模)。
    3. “结构越多的方法,其可扩展性越差” [cite: 51]。
  • 最优归纳偏置 (optimal inductive biases):在给定的计算、数据、算法和架构水平下,添加适量的结构(捷径)可能暂时表现更好,但这些结构后续可能阻碍进一步扩展,需要被移除 [cite: 57, 58]。社区擅长添加结构,不擅长移除结构 [cite: 58]。
    • “长期来看更好的方法,在当前几乎总是看起来更糟。这在人工智能研究中有些独特。” [cite: 59]

Transformer 架构变体分析

  • 目标:回顾 Transformer 早期历史,分析研究者添加的关键结构及其动机,以及这些结构如何随着计算能力和算法进步而变得不那么重要 [cite: 61, 62]。
  • 三种主要变体 [cite: 63]:
    1. Encoder-Decoder (原始Transformer,结构较多)
    2. Encoder-Only (如BERT,用于理解任务)
    3. Decoder-Only (如GPT,结构最少,当前主流)
  • 数据处理流程 [cite: 64-76]:原始文本 -> 分词 (Tokenization) -> 嵌入 (Embedding) -> 序列模型 (Transformer层处理)。

Encoder-Decoder 架构

  • 最初用于机器翻译等序列到序列任务 [cite: 77]。
  • Encoder [cite: 77, 78, 79]:
    • 多层,每层含双向自注意力 (Bidirectional self-attention) 和前馈网络 (MLP)。
    • 输入序列 (如 "That is good")。
  • Decoder [cite: 77, 80]:
    • 多层,每层含因果自注意力 (Causal self-attention),交叉注意力 (Cross-attention),和MLP。
    • 交叉注意力模块允许解码器关注编码器的最终输出层激活 [cite: 77, 83],连接编解码器。
    • 输出序列 (如 "[BOS] Das ist gut [EOS]")。

Encoder-Only 架构

  • 用于文本分类、命名实体识别等,输出整个序列的固定大小表示 [cite: 84, 85]。
  • 结构类似 Encoder,含双向自注意力。通常使用 [CLS] 词元的最终输出来代表整个序列。
  • 需要任务特定的线性层进行分类 [cite: 86, 87]。
  • 缺点:无法直接生成序列,通用性受限 [cite: 87, 88]。因此后续讨论主要集中在 Encoder-Decoder 和 Decoder-Only。

Decoder-Only 架构

  • 当前许多 LLM (如GPT系列) 的基础 [cite: 89]。
  • 结构类似 Decoder,但没有独立的交叉注意力模块。含多层因果自注意力 (Causal self-attention) 和 MLP [cite: 89, 92]。
  • 输入 (Input) 和目标 (Target) 序列被连接 (concatenated) 作为模型输入 [cite: 90, 91, 92]。 (例如,翻译任务 "That is good" -> "Das ist gut",输入为 "[BOS] That is good Das ist gut")
  • 关键设计特点 [cite: 93]:
    • 自注意力机制同时扮演传统 E-D 架构中自注意力和交叉注意力的角色。
    • 输入和目标序列共享同一组参数。

Encoder-Decoder (E-D) 与 Decoder-Only (D-O) 架构的比较

  • 通过逐步转换 E-D 到 D-O 来理解其核心差异 [cite: 94]。
  • 主要差异点及向 D-O 的转换步骤
    1. 额外的 Cross Attention:E-D 有独立模块;D-O 中 Self-attention 兼顾。
      • 转换:共享 Cross-attention 和 Self-attention 的参数 [cite: 99]。
    2. 参数共享:E-D 中输入和目标的参数通常分开;D-O 共享。
      • 转换:共享 Encoder 和 Decoder 的参数 [cite: 104]。
    3. 目标到输入的 Attention 模式:E-D 通常只关注 Encoder 最后一层输出;D-O 是层内 Attention。
      • 转换:让 Decoder 的第 i 层关注 Encoder 的第 i 层输出(而非最后一层)[cite: 109]。
    4. 输入 Attention 模式:E-D 的 Encoder 是双向 (Bidirectional);D-O 的标准形式是单向/因果 (Unidirectional/Causal)。
      • 转换:使 Encoder 的 Self-attention 变为因果的 [cite: 114]。
  • 经过这些转换,E-D 架构接近 D-O 架构。

Encoder-Decoder 中额外的结构性假设及其当前适用性

  1. 假设1:输入和目标序列足够不同,以至于使用独立的参数是有效的。 [cite: 118, 119]

    • 机器翻译 (2017):输入输出语言不同,分离参数合理 [cite: 120]。但现代LLM学习的是通用知识,语言只是表达形式,分离参数可能不再最优 [cite: 121]。
    • 指令微调 (Instruction Finetuning):学术数据集常有“长输入,短目标”的特点(因评估长输出困难)[cite: 123-130, 133]。E-D模型 (如Flan-T5) 在此类任务上性能提升比D-O模型 (如Flan-PaLM) 更大,可能因为独立参数适应了这种长度不匹配 [cite: 131, 132]。但当前LLM应用常需长文本生成,此假设不再普适 [cite: 133]。
    • 聊天应用:上一轮的目标是下一轮的输入,使用不同参数不自然。
  2. 假设2:目标元素可以关注到输入序列的完全编码表示 (fully encoded representation),即编码器最后一层。 [cite: 134]

    • 深度网络中,底层和顶层编码信息粒度不同(如视觉中边缘vs.物体)[cite: 136]。若Encoder很深,解码器仅关注其最终层输出,可能造成信息瓶颈 [cite: 135, 136, 137]。
    • Hyung Won 经验中(如T5的24层Encoder),影响不大,但对于更深(如1000x层)的模型,此设计可能成问题。
  3. 假设3:在编码输入序列时,序列元素之间的“全体到全体”(all-to-all) 交互(即双向注意力)是首选的。 [cite: 138, 139]

    • BERT(B代表Bidirectional)时期,双向性对某些任务(如SQuAD问答)提升显著。
    • 当前观点:大规模下,双向性似乎不那么重要(基于Flan fine-tuning的经验)[cite: 140]。
    • 工程挑战:对于多轮对话,双向注意力意味着每轮都需重新编码整个对话历史。而单向/因果注意力可以缓存历史计算的隐藏状态,仅编码新增消息,效率更高 [cite: 140, 141]。

结论

  • AI研究的主要驱动力是指数级增长的廉价计算资源和相关的扩展能力 [cite: 144]。
  • 通过分析E-D架构相对于D-O架构的额外结构,并从扩展的角度审视它们,有助于理解当前AI发展趋势并预测未来轨迹 [cite: 144]。
  • 鼓励思考当前问题中的假设,是否应被更通用的方法替代并扩大规模。

Hyung Won Chung 问答环节

  • 关于混合专家 (MoE) 结构的持久性:表示不便分享过多关于架构的具体信息,但认为MoE“看起来相当通用”。
  • Decoder-Only 中的参数共享和单向性是否也算一种“结构限制”:Hyung Won 认为 Encoder-Decoder 更复杂,包含更多假设(如输入输出不同)。Decoder-Only 将输入输出视为统一序列处理,是更简单的结构。
  • 对Mamba等近期状态空间模型的看法:认为架构本身可能不是改变局势的关键。多模态可能会给Transformer结构带来瓶颈。
  • 关于注意力机制的排列不变性及计算机视觉中的不变性学习:对强制引入人类感知的“不变性”(如CNN的平移不变性)持保留态度。机器可能以不同于人类的方式学习,不应过度施加此类结构。如果无特定不变性结构的方法更优且更具扩展性,则更好。
  • 当前LLM中应被移除的归纳偏置
    • 架构本身可能不是当前瓶颈(基于过去对多种Transformer变体研究,差异不大)。
    • 学习目标 (learning objective) 是一个值得关注的领域。最大似然估计 (MLE) 假设单一正确答案,这对于开放式生成任务(如写诗)可能存在问题。
    • RLHF (Reinforcement Learning from Human Feedback) 是一个尝试,使用学习到的奖励模型作为目标函数,结构性更弱,但RLHF本身的可扩展性也有限。
  • 关于摩尔定律终结与计算能力增长:摩尔定律(晶体管数量)可能具有误导性,关键是计算能力的可用性。GPU的发展、低精度计算、专用芯片(若架构稳定)等都可能延续计算能力增长的趋势。甚至未来机器可能辅助设计更高效的芯片。能源可能是未来的瓶颈。