2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models

Detailed Summary 摘要

生成：2025-05-18 15:50

摘要详情

音频文件: 2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-exp-03-25
创建时间: 2025-05-18 15:50:27

摘要内容

概览/核心摘要 (Executive Summary)

本内容总结了 Zhipu AI 研究科学家 Ming Ding 于2024年5月9日在斯坦福 CS25 课程上关于从大型语言模型 (LLM) 到大型多模态模型 (LMM) 的演讲。Ming Ding首先回顾了LLM发展的三个关键时刻：BERT时刻（自监督学习方法的探索，如其参与的GLM模型），GPT-3时刻（揭示了“规模法则”的重要性，即计算资源投入与性能提升的直接关系），以及ChatGPT时刻（证明了“任务适应成本低廉”，预训练知识至关重要，且模型性能与预训练损失直接相关）。

演讲详细讨论了LLM训练的技术细节，包括Transformer架构的常见改进（如Decoder-only、Pre-Norm、RoPE）、训练框架（DeepSpeed、Megatron-LM）、长上下文处理技术（如Context Parallelism）以及对齐方法（SFT和RLHF，特别是DPO的兴起）。Ming Ding强调，当前LLM研究中，数据（清洗、过滤、合成）是核心竞争力，算法、架构和数据在一定程度上可以相互转化。

随后，演讲重点介绍了过去一年中LMM的进展，包括BLIP-2、LLaVA等模型，并详细介绍了Zhipu AI的开源模型CogVLM（保持语言能力的同时增强图像理解，采用视觉专家模块）和CogAgent（针对GUI和OCR场景，支持高分辨率输入和跨注意力机制）。他还提及了最新的GLM-4V模型，其在多模态能力上表现优异。演讲还涵盖了图像生成领域，对比了自回归模型（如CogView）和扩散模型（如DDPM、其团队的ReFlow/Rectified Flow、CogView3），并分析了视频生成模型Sora成功的关键因素。

最后，Ming Ding展望了未来1-2年多模态领域的发展趋势，预测视觉基础任务将基本解决，视频理解和具身智能将愈发重要。他建议研究者关注视频理解的数据集与基准、被低估的语音AI，并强调系统级优化、新架构探索以及高质量数据生成方法的重要性。

演讲概述

演讲者：Ming Ding (Zhipu AI 研究科学家)
主题：从大型语言模型 (LLM) 到大型多模态模型 (LMM)
核心内容：回顾LLM发展，探讨LMM的学术界尝试与结构更新，重点介绍CogVLM和CogAgent模型，并讨论多模态模型的应用与未来研究方向。
演讲结构：
1. LLM简介与历史 (我们为何在此)
2. LLM训练的实用技术 (我们如何到达这里)
3. 过去一年LMM及相关技术 (我们正在做什么)
4. 多模态领域有价值的研究方向 (未来展望)

大型语言模型 (LLM) 的发展历程与关键节点

Ming Ding 认为LLM发展中有三个最重要的时刻：

BERT 时刻 (Birth Moment)
- 核心：探索更优的自然语言处理自监督学习方法。
- 普遍观点：Masked Language Model (如BERT) 擅长理解文本，自回归模型 (如GPT) 擅长文本生成，T5则试图兼顾两者但被认为冗余。
- Ming Ding的贡献：参与发表 GLM (General Language Model)，旨在统一BERT和GPT的Decoder-only架构。通过选择性地对序列的一部分进行自回归建模，实现了类似BERT（部分mask）和GPT（全序列mask）的效果。
- 反思：事物是变化的，如今GPT系列几乎统一了NLP问题。
GPT-3 时刻
- 核心：“规模法则 (Scaling Law)” 的重要性。
- 观点：增加计算资源（更多参数、更多训练数据）可以带来可预测的性能提升（如困惑度降低），使得LLM研究更偏向工程化。架构或算法创新的边际效益可能不如扩大规模。
- 影响：LLM的开发变得更侧重于如何有效分配计算资源。
ChatGPT 时刻
- 核心：“任务适应成本低廉 (Task adaptation is cheap)”，而 “预训练知识至关重要”。
- 教训：以往设计不同损失函数以适应不同任务（如GLM和BERT能做填空，自回归模型不能），但现在发现任务适应仅需在预训练模型基础上进行少量微调。
- InstructGPT的启示：对齐操作能显著提升模型在人类偏好上的表现。
- Zhipu AI的近期研究：下游任务的性能仅与预训练的损失 (loss) 相关，而与模型大小不直接相关。一个训练不足（loss高）的大模型可能不如一个充分训练（loss低）的小模型。所谓的“涌现能力”也与loss相关，而非参数量。
- 结论：LLM研究很大程度上变成了“曲线拟合的游戏 (game of curve fitting)”。

LLM 训练的技术细节

尽管LLM发展趋向工程化，但仍有许多重要的技术细节：

Transformer 架构的常见改进 (许多源于Transformer原论文作者后续工作)：
- Decoder-only架构：取代了原始的Encoder-Decoder架构，因其更简洁高效。
- Pre-Norm (LayerNorm)：Layer Normalization置于残差连接之前，而非原始的Post-LN。
- Rotary Position Embedding (RoPE)：一种高效的位置编码方法，最初并非通过论文发表。
- Grouped Query Attention (GQA)：节省推理显存。
- SwiGLU (variant of GLU)：替代MLP中的激活函数。
- Mixture of Experts (MoE)：用较少参数达到更好性能。
- 示例：Llama模型采用了上述多种技术。
LLM 训练框架与优化：
- DeepSpeed (Microsoft)：
  - ZeRO (Zero Redundancy Optimizer)：
    - ZeRO-1：分散优化器状态 (Adam states) 和主权重到数据并行中的各个rank，减少单卡显存占用。
    - ZeRO-2：进一步分散梯度。
    - ZeRO-3 (Fully Sharded Data Parallel)：将模型参数也分散到不同卡上，使用时聚合。
  - Activation Checkpointing (Gradient Checkpointing)：仅保存部分中间激活状态，反向传播时重计算，大幅减少显存占用。
  - CPU Offload：将部分GPU显存中的数据卸载到CPU内存。
- Megatron-LM (NVIDIA)：适用于训练超大规模模型 (如 >100B 参数)。
  - Tensor Parallelism：将隐藏层大小和注意力头在不同rank间切分，但会引入额外的通信 (all-reduce)。
  - Pipeline Parallelism：将模型的不同层切分到不同rank，但会产生“气泡 (bubbles)”，可通过interleaving等方法减少。
- 结论：当前LLM训练已高度工程化，有成熟的库和API简化了大规模训练的复杂度。
长上下文 (Long Context) 处理：
- 趋势：当前的长上下文处理已远超几年前的想象，能够实现基于完整注意力 (full attention) 的超长序列处理 (如超过10万token长度)。
- 对比：几年前处理长文本依赖复杂的检索、分步处理等方法（如Ming Ding早期关于工作记忆模拟的论文）。
- 关键技术：Context Parallelism，将序列切分到不同rank，使用Ring Attention或Ulysses等技术完成注意力计算。
- 库：Transformer Engine 提供了相关功能。
- 挑战：需要处理注意力计算的负载均衡。
- 影响：简化了许多NLP任务，如文档摘要和事实抽取，可以直接将长文档输入模型进行理解。
对齐 (Alignment)：
- Supervised Fine-Tuning (SFT)：
  - 使用高质量的人工标注数据进行微调，强调需要领域专家编写高质量答案，而非简单的众包。
  - 可以从更强大的模型（如GPT-4 Turbo）提取问答对进行训练，但OpenAI禁止此行为用于商业竞争。
  - 观点：即使使用教师模型的数据，如果学生模型的loss更低，也能超越教师模型（提及论文 "The False Promise of Imitating Proprietary LLMs" [原文为 "way to strong generalization"]）。
- Reinforcement Learning from Human Feedback (RLHF)：
  - PPO (Proximal Policy Optimization)：效果强大但难以实现和训练。
  - DPO (Direct Preference Optimization)：一种更简单的方法，仅需偏好数据对即可更新模型，无需显式的奖励模型。目前多数开源模型采用此方法。

数据在 LLM 中的核心地位

公开的秘密：数据清洗、过滤、合成为当前LLM公司的核心工作。
训练基础设施：虽然重要，但优化带来的性能提升可能不如高质量数据带来的提升明显（如20% vs 更显著的提升）。
数据、算法与架构的转化：
- 三者可以相互转化。一个问题可以通过改进架构、设计新算法或准备特定数据来解决。
- 示例 - 多跳问答 (Multi-hop QA)：
  - Ming Ding早期的工作 CogQA 使用复杂的BERT和图神经网络 (GNN) 架构解决。
  - 同期工作使用MCTS等算法。
  - 当前：通过长上下文GPT模型配合思维链 (Chain-of-Thought, CoT) 推理，将所有相关文档放入上下文中，即可较好解决，这是一种数据层面 (data-level) 的解决方案。
- 数据层面的解决方案：通常最简单，直接将数据加入训练，不影响其他任务。
- 结论：数据处理工作虽然看似基础，但对于当前AI发展至关重要，需要转变对数据工作的看法。

大型多模态模型 (LMM) 的进展 (过去一年)

BLIP-2：通过 Q-Former (一个Transformer模块) 连接了CLIP的图像编码器和LLM，使LLM具备图像理解能力。Q-Former需要训练以对齐图像和文本特征空间。
LLaVA (Large Language and Vision Assistant)：采用更简洁的方法，使用一个简单的投影层 (projection weight) 将视觉编码器的特征转换到LLM的输入空间。迅速成为流行的LMM架构。
CogVLM (Zhipu AI)：
- 动机：在赋予模型图像理解能力的同时，保持其原有的语言能力。避免像早期方法那样在多模态训练中损害LLM的语言性能。
- 方法：引入“视觉专家 (vision expert)”模块，在骨干网络中增加新参数处理图像特征，而原有权重继续处理文本特征。
- 性能：在多个基准测试（图像描述、视觉定位、VQA等）上达到SOTA。
- 开源：已开源，上个月下载量超过50万次。
CogAgent (Zhipu AI)：
- 目标场景：GUI理解和OCR，常用于构建网页代理 (web agent)。
- 架构特点：支持高分辨率图像输入，并使用跨注意力机制 (cross attention) 处理高分辨率通道，以在不显著增加LLM部分计算负担的前提下处理细节。
- 应用示例：接收屏幕截图作为输入，执行搜索、订票等操作。
- 开源：已开源。
其他流行的LMM架构：
- Fuyu-8B：支持不同分辨率的特征输入，显著提升OCR性能。
GLM-4V (Zhipu AI的最新模型)：
- 架构：基于LLaVA的简化改进，将投影层替换为步进卷积 (strided convolution) 以支持高分辨率输入，同时保持语言模型部分的计算效率。
- 训练：与文本数据混合训练。
- 性能：在多模态能力上可与GPT-4V、Gemini、Claude 3媲美，在OCR基准（如文档VQA）和中文OCR方面表现尤为出色。
- 体验：可通过 chatglm.cn 网站体验。

图像生成技术

自回归模型 (Autoregressive Models)：
- CogView (Ming Ding早期工作, 2021)：
  - 思路：借鉴GPT的自回归思想进行图像生成。
  - 方法：首先训练一个图像分词器 (image tokenizer)，通常是VQ-VAE，将图像离散化为token序列。然后将文本token和图像token序列拼接，用GPT模型进行自回归训练。推理时，输入文本，逐个预测图像token。
  - 同期工作：DALL-E (OpenAI), Parti (Google)。
- 通用多模态建模 (Universal Modeling)：
  - 思路：将图像像文本一样分词化，用统一模型处理图生文、文生图、纯文本生成等任务。
  - Ming Ding的尝试 (约2年前)：通过调整文本和图像token在序列中的位置和mask方式实现不同任务。
  - 问题：
    - 图像生成效果和速度不如扩散模型。
    - 图像理解效果不如专门的视觉语言模型，因为图像离散化过程中会损失信息。
    - 结论：能实现通用建模，但在各项任务上都无法达到最佳性能。
扩散模型 (Diffusion Models)：
- 核心：一种与自回归完全不同的自监督学习方法。
- DDPM (Denoising Diffusion Probabilistic Models)：原始论文，仍是主流框架。通过逐步向清晰图像加噪，然后训练模型预测噪声（或原始图像/速度等）。
- 优势：采样时能充分利用GPU并行性，生成速度远快于自回归模型（尤其是高分辨率图像）。
- ReFlow / "Really Diffusion Model" (Rectified Flow, Zhipu AI近期工作)：
  - 解决问题：不同分辨率下噪声调度 (noise schedule) 的一致性问题。直接对不同分辨率图像添加独立同分布噪声会导致高分辨率图像在视觉上更模糊。
  - 方法：使用“块噪声 (block noise)” 将低分辨率的噪声等效转换到高分辨率，保持不同分辨率下频域信噪比一致。
  - 效果：解耦了噪声调度和网络架构，提升了在高分辨率上继续扩散的速度。
- CogView3 (Zhipu AI)：基于ReFlow扩展的大型扩散模型，经过蒸馏后速度很快。
- Transformer在扩散模型中的应用：
  - DiT (Diffusion Transformer) (Sora作者之一的工作)：关键是将时间步长信息通过类似 adaLN (Adaptive Layer Normalization) 的方式（预测缩放和平移参数）融入Transformer模块。这种条件注入模块参数量巨大。
  - Stable Diffusion 3：采用新的 MMDiT (Multi-Modal Diffusion Transformer) 架构，使用了类似CogVLM的视觉和文本专家模块，而非像先前工作那样依赖T5特征的跨注意力。其图像重描述模型基于Zhipu AI发布的ReFlow代码。

视频生成技术

CogVideo (Zhipu AI, 几年前)：基于自回归的文生视频模型，开源，但性能远不如当前的Sora。
Sora (OpenAI)：
- 关键改进来源分析：
  1. 无“闪烁” (flickering)：可能通过 3D隐空间编解码器 (3D latent encoder-decoder) 和训练扩散解码器解决。
  2. 高质量图像帧：得益于模型规模扩大 (scaling up) 和高分辨率处理。
  3. 长上下文视频条件化：借鉴了LLM训练基础设施中的长上下文处理和Context Parallelism技术，使得模型可以处理更长的视频序列和更复杂的文本提示。
  4. 数据覆盖度 (Data Coverage)：需要大量的工程设计和视频重描述 (video recaptioning) 技术来获取高质量的训练数据。
- 核心：将LLM训练的成熟基础设施和经验应用到扩散模型的扩展上。

未来展望与研究方向

未来1-2年趋势预测：
1. 常见视觉任务基本解决：物体识别、定位、属性识别、人类表情理解等高级视觉任务将变得廉价且基本解决。
2. 自动驾驶长尾问题缓解：虽不能完全解决，但会有显著改善。
3. 视频理解愈发重要：
  - 实用性强：互联网和日常生活中存在大量视频数据。
  - 难度大：当前最强模型（如Gemini 1.5）仍有幻觉、计数错误等问题，改进空间巨大。
  - 计算资源充足：下一代GPU和LLM的需求将提供足够算力。
4. 具身智能 (Embodied AI) 研究地位提升：
  - 结合LLM的规划能力和LMM的感知能力，可能产生惊艳的演示。
  - 短期内难以对现实生活产生巨大影响，因成本高昂。
对研究者的建议：
- 资深研究者：追随内心和经济效益。
- 快速产出影响力：关注视频理解模型、数据集、基准测试，尤其是数据集和基准测试，目前社区需求迫切。
- 多模态其他领域：语音/音频AI (Speech AI) 被低估，用户需求和应用前景广阔，但投入的GPU和研究资源不足。
- 高风险高影响力研究：
  1. 与系统领域博士生合作：优秀的算法需要充分利用当前硬件（GPU等）。
  2. 探索新架构、自监督学习方法和优化器：下一代硬件可能完全不同，Transformer和自回归建模方法可能面临挑战。
  3. 将计算资源转化为高质量数据的新方法：高质量网络数据已趋于耗尽。需要探索如利用代码执行结果、MCTS、强化学习等方法生成和筛选新数据。

问答环节 (Q&A)

长上下文窗口的代价是什么？
- Ming Ding：主要是时间消耗。推理分为prefill（处理长输入）和decode（逐token生成）两个阶段。多数用户场景是理解长文本后生成少量token。用户可能需要等待几秒到一分钟让模型处理长上下文。
数据质量是否比其他因素（如架构）更能决定模型最终性能？是否还有很多改进模型架构的工作可做？
- Ming Ding：是的，当前整个社区都在努力提升数据质量。架构、算法、数据可以相互转化。用数据解决特定问题通常更直接。高质量数据更重要。但通用的Transformer架构更新仍然非常有价值。
为什么自回归架构在图像生成方面不如扩散模型？
- Ming Ding：这是一个复杂问题。
  1. 生成速度：自回归模型逐token生成，高分辨率图像可能包含数千上万token，非常耗时。扩散模型通过几步前向传播即可生成完整图像，速度快几个数量级。
  2. 建模能力：自回归模型可能难以很好地建模图像中像素间的长距离空间依赖关系（如左上角像素与右下角像素在序列中距离遥远）。扩散模型在某种程度上可以同时看到所有像素。这只是可能的原因，尚需更多研究。
CogAgent模型与CogVLM模型有何不同？
- Ming Ding：CogAgent是在CogVLM基础上微调而来，专门处理高分辨率的网页截图等场景。由于网页包含大量小文字、小图标，需要高分辨率输入。CogAgent通过引入一个轻量级的跨注意力模块来处理高分辨率信息，避免了直接扩展CogVLM输入分辨率带来的巨大计算开销。
视频理解决如何帮助AI更好地理解物理世界？
- Ming Ding：是的，但这是一个双向问题。如果训练数据本身不包含物理规则，模型也难以学习。当前视觉语言模型主要依赖文本-图像/视频对进行有监督训练，并未充分利用纯图像/视频中的自监督信号。要让模型通过无标注视频更好地理解物理世界，需要探索新的自监督学习或训练方法。
是否存在类似思维树或束搜索风格的、涉及多轮对话的树状结构VQA任务？
- Ming Ding：可能存在，但他认为思维树这类方法可能更好，因为它们能感知到更多上下文信息（如错误路径、其他失败案例）。经验表明，将所有相关上下文都包含在输入中，模型通常能学到如何处理并表现更好，优于硬编码的束搜索（仅比较概率）。

返回音频媒体