【生成式AI导论 2024】第16讲：可以加速所有语言模型生成速度的神奇外挂 — Speculative Decoding

讲座日期: 2024年5月18日

概览/核心摘要 (Executive Summary)

本讲座详细介绍了一种名为Speculative Decoding（推测解码）的语言模型生成加速技术。该技术的核心思想是引入一个快速的“预言家”（Prophet）模型，在主语言模型（LLM）生成下一个词元（token）之前，提前预测出未来可能的一系列词元。随后，主语言模型可以并行地验证这些预测，从而打破传统自回归（Autoregressive）模型一次只能生成一个词元的瓶颈，实现生成速度的大幅提升，通常可达2至3倍。

该技术最显著的特点是其通用性和非侵入性，讲者称之为“一个神奇的外挂”，因为它无需对现有语言模型进行任何修改或重新训练，可以直接应用于任何LLM。即使“预言家”的预测出现错误，该机制也具备完善的容错能力：系统会比对主模型的实际输出与“预言家”的预测，仅采纳到第一个错误点为止的正确序列，后续错误的预测及基于它们的计算结果则被丢弃。在最坏情况下（“预言家”的预测完全错误），其生成速度会回退到与原始模型相当的水平，但代价是浪费了用于并行验证的计算资源。因此，该技术本质上是“用运算资源来换取时间”。讲座还探讨了多种可担任“预言家”角色的方案，包括非自回归模型、压缩后的小模型、搜索引擎，甚至可以组合多个“预言家”以提高预测准确率。

Speculative Decoding技术简介与优势

Speculative Decoding是一种旨在解决自回归语言模型生成速度慢这一痛点的先进技术。传统模型必须按顺序逐个生成词元，而该技术通过并行化处理显著加快了这一过程。

核心优势:
- 通用性: 可应用于任何语言模型，无需修改模型本身或进行额外训练。讲者形容其为“一个神奇的外挂”。
- 显著提速: 能够将模型的生成速度提升至原来的2到3倍。讲者以Llama 3B模型为例，展示了使用该技术前后的速度对比。
- 非侵入性: 直接附加在现有模型上，不改变其原始架构。
背景推测: 讲者推测，当前一些生成速度极快的模型可能已经应用了类似Speculative Decoding的技术来优化其性能。

核心工作原理：引入“预言家”机制

Speculative Decoding的核心在于引入一个“预言家”（Prophet）来打破自回归模型的“按部就班”。

预测阶段: 当接收到输入时，一个速度极快（其计算时间被假设为可忽略不计）的“预言家”会立刻预测出主模型接下来可能生成的多个词元。
- 例如，对于输入（蓝色），“预言家”预测后续会生成红色词元，然后是黄色词元。
并行验证: 系统将多个可能的输入序列同时提供给主语言模型进行并行计算。
- 输入1: 原始输入
- 输入2: 原始输入 + 预言家预测的第一个词元（红色）
- 输入3: 原始输入 + 预言家预测的第一、二个词元（红色+黄色）
并行生成: 主语言模型一次性处理这些输入，并行地计算出每个序列的下一个词元。从外部观察者的角度来看，模型似乎一次性“吐出”了多个词元，从而实现了速度的倍增。

关键问题：如何处理“预言家”的错误？

“预言家”并非永远正确，该技术设计了一套稳健的机制来应对其预测错误。

如何判断错误？
- 当主语言模型完成并行计算后，系统会将其实际生成的词元与“预言家”的预测词元进行逐一比对。
- 例如，如果主模型在第一步生成了红色词元（与预言家一致），但在第二步生成了黄色词元（而预言家预测的是灰色词元），那么系统就识别出预言家的第二个预测是错误的。
错误发生后的处理
- 采纳正确部分: 系统会接受并输出所有在第一个错误点之前的、被验证为正确的词元序列。
- 丢弃错误部分: 从第一个不匹配的词元开始，所有后续的预测以及基于这些错误预测所产生的计算结果都会被丢弃。
- 收益分析: 即使“预言家”只猜对了一个词元，生成速度也比原来快了一倍，因此“你还是有赚”。
最坏情况：预测完全错误
- 如果“预言家”的所有预测都是错误的，系统将只采纳主模型基于原始输入生成的那一个正确词元。
- 时间成本: 在这种情况下，生成速度回退到与未使用该技术的原始模型相当的水平，讲者称之为“不赚不赔”。
- 资源成本: 虽然时间上没有损失，但用于验证错误预测的并行计算资源被浪费了。这体现了该技术的核心权衡：“用了运算资源来换取了你的时间。”

“预言家”的角色选择与实现方式

一个合格的“预言家”需要具备两个核心特质：生成速度超快，且允许犯错。基于此，讲者提出了几种可行的方案：

1. 非自回归模型 (Non-Autoregressive Model)
- 特点: 生成速度快，所有输出同时生成，但生成质量通常不高、容易犯错。
- 契合度: 其特性与“预言家”的需求完美匹配，可看作是自回归与非自回归模型的有效结合。
2. 压缩后的小模型 (Compressed Small Models)
- 方法: 通过模型量化（quantization）或知识蒸馏（knowledge distillation）等技术，将大模型压缩成一个更小、更快的版本。
- 特点: 压缩后的模型虽然运行速度快，但准确性会下降（“脑袋不好使”），这对于需要犯错容忍度的“预言家”角色而言是可以接受的。
3. 搜索引擎 (Search Engine)
- 方法: 将当前输入作为查询，在大型数据库中搜索常见的后续文本，并将搜索结果作为预测。
- 前提: 此方法假设搜索引擎的查询速度极快，几乎可以忽略不计。
4. 多个预言家 (Multiple Prophets)
- 方法: 可以同时使用多个不同的“预言家”，让它们各自生成预测。
- 优势: 系统可以选择其中最准确的预测序列进行验证，从而增加预测正确的词元数量，最大化时间节省。预测越正确，节省的时间就越多。

评审反馈

总体评价

总结质量极高，准确、全面地再现了讲座的核心技术要点、关键比喻和内在逻辑。内容组织清晰，语言专业，几乎没有事实性错误或关键信息遗漏。

具体问题及建议

[内容组织]：总结的“结论”部分与开头的“概览/核心摘要 (Executive Summary)”在内容上存在较大程度的重叠，都是对全文的高度概括。
- 修改建议：可以考虑将“结论”部分删除，或将其重构为更侧重于未来展望或技术影响的简短评述，以避免信息冗余，使结构更精炼。
[格式规范]：当前总结缺少了审核资料中提供的元信息，如主标题和日期。
- 修改建议：在总结的顶端补充主标题和描述，例如：
  # 【生成式AI导论 2024】第16讲：可以加速所有语言模型生成速度的神奇外挂 — Speculative Decoding **讲座日期**: 2024年5月18日
  这能让文档的上下文更完整。
[语言表达]：在“概览/核心摘要”中描述最坏情况时，表述为“性能会回退到与原始模型相当的水平”，这主要指时间性能。虽然紧接着提到了资源损失，但可以更精确地表述此处的权衡关系。
- 修改建议：将“其性能会回退到与原始模型相当的水平，仅损失了部分用于并行验证的计算资源”调整为“其生成速度会回退到与原始模型相当的水平，但代价是浪费了用于并行验证的计算资源”，更直接地突出“时间”与“资源”的对等关系。

优化方向

精简结构：优化或移除重复的结论部分，使文档的整体结构更加紧凑高效。
完善元数据：补充完整的标题和日期信息，使总结成为一份信息独立且完整的参考资料。
提升表述精度：在描述核心权衡（如时间 vs. 资源）时，使用更精确的词汇，确保读者能清晰理解技术背后的代价与收益。

StreamSparkAI

Detailed Summary 摘要

摘要详情

摘要内容