详细摘要 摘要
生成:2025-05-20 23:51摘要详情
- 音频文件
- 2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela
- 摘要类型
- 详细摘要
- LLM 提供商
- openai
- LLM 模型
- gemini-2.5-pro-exp-03-25
- 已创建
- 2025-05-20 23:51:01
摘要内容
概览/核心摘要 (Executive Summary)
本讲座由斯坦福大学符号系统兼职教授 Douwe Kiela 主讲,深入探讨了多模态深度学习,尤其侧重于自然语言处理(NLP)与图像的结合。讲座强调了多模态学习的重要性,源于其对人类体验的忠实模拟、互联网应用的普遍性以及数据效率和可用性(尤其是在高质量文本数据日益稀缺的背景下)。Kiela 教授回顾了多模态学习的发展历程,从早期模型(如基于词袋模型的视觉词汇、CNN与词嵌入的简单融合)到句子级别的对齐和生成模型(如图像字幕生成、GANs)。核心技术点包括特征提取(如图像的 ResNet、ViT 特征,文本的词嵌入、Transformer 特征)与多模态融合(早期、中期、晚期融合策略,如拼接、门控、注意力机制)。
讲座重点介绍了对比学习模型,特别是 CLIP 及其后续工作(如 ALIGN、LAION 数据集),它们通过在大规模图文对上进行对比预训练,学习共享嵌入空间,实现了强大的零样本学习能力。随后,讲座转向了多模态基础模型,如 VisualBERT、VilBERT、FLAVA(Kiela 团队工作,强调统一处理视觉、语言及多模态任务)、Flamingo(利用冻结语言模型进行视觉推理)和 BLIP-2(高效连接图像编码器与语言模型)。Kiela 教授还探讨了其他模态(音频如 Whisper,视频如 Merlo Reserve,3D 数据,乃至嗅觉嵌入)的潜力。评估是多模态学习的一大挑战,讲座提及了 COCO、VQA 等基准,并重点介绍了 Kiela 团队开发的 Hateful Memes Challenge 和 Winoground 数据集,旨在更精确地衡量模型的真实多模态理解和组合泛化能力,揭示了当前模型在深层理解上的不足。最后,Kiela 展望了未来方向,包括统一基础模型、多模态缩放定律、检索增强生成、多模态泛化及具身智能。
引言与多模态的重要性
Speaker 1 (Introducer):
* 介绍了主讲人 Douwe Kiela 教授,他来自荷兰,曾在 Facebook (Meta) FAIR 部门和 Hugging Face 工作,是深度学习领域的杰出研究者,近期专注于多模态模型研究,并参与了检索增强生成等工作。
Speaker 2 (Douwe Kiela):
* 多模态的定义: 指涉及多种模式、形态或极大值。在NLP领域,主要指文本与其他一种或多种模态(如图像、语音、音频、嗅觉等)的结合,本次讲座主要关注文本与图像。
* 多模态的重要性:
* 忠实性: 人类体验本身就是多模态的,我们通过综合多种感官信息理解世界。
* 实用性: 互联网和许多应用本质上是多模态的(如社交媒体帖子常包含图文)。
* 数据效率和可用性:
* 多模态数据更丰富、“高带宽”,可能更利于学习。
* 随着高质量文本数据逐渐耗尽,利用其他模态数据成为扩展模型能力的关键。引用 LeCun 的话,语言是“一种不完美、不完整、低带宽的我们称之为思想的内部数据结构序列化协议”。
* Kiela 教授指出:“多模态是新基础模型革命的主要前沿之一。”
* 多模态大脑的例证: McGurk 效应展示了视觉信息如何影响听觉感知。
多模态应用
讲座列举了文本和图像结合的多种应用场景:
* 检索 (图像 <> 文本): 根据文本查找图像,或根据图像查找文本。
* 图像字幕 (图像 -> 文本): 为图像生成自然语言描述。
* 生成 (文本 -> 图像): 根据文本提示生成图像(如 Stable Diffusion)。
* 视觉问答 (VQA) (图像 + 文本 -> 文本): 根据图像和问题生成答案。
* 多模态分类 (图像 + 文本 -> 标签): 例如判断内容是否为仇恨言论。
* 多模态聊天机器人: 基于图像进行多轮对话。
* (课件补充:图像到图像转换(受文本条件限制)、多模态信息检索、文本到3D生成)
* Kiela 教授引用一篇论文标题预测其会被高频引用:“I predict that this paper is going to do really well in terms of citations. Just because it has such a citable title, I think a lot of people are not actually going to read it.” (暗指多模态领域的热度)
早期多模态模型
- 核心思想: 将视觉模型和语言模型的输出对齐到同一个多模态空间。
- 使用相似性度量(得分函数/核函数)和最大间隔损失函数。
- 实现跨模态迁移,如用词嵌入查找相关图像。
- 多模态词嵌入:
- Bruni 等人的工作使用“视觉词袋 (Bag of Visual Words)”模型:通过 SIFT 等算法提取图像关键点,获取特征描述符,使用 k-means 聚类形成视觉词汇,并统计词频。
- 与文本特征(如词嵌入)融合(如拼接、SVD),得到更丰富的词表示。
- 深度学习早期应用:
- 使用 CNN 提取图像特征,结合词嵌入(如 Word2Vec),通过拼接或让 Skip-gram 模型预测图像特征来创建多模态词向量。
- Kiela 教授提到,这些早期想法“super easy ideas, but it turned out that this gives you much richer word representations.”
- 句子级表示与对齐:
- 将句子编码器(RNN、Recursive Neural Network)的输出与图像对齐。
- Kiela 教授提及自己的工作表明,仅通过预测图片就能获得良好的句子表示,可迁移至情感分类等NLP任务。
- 图像字幕生成:
- 采用序列到序列架构:CNN 作为图像编码器,LSTM 作为解码器生成字幕。
- 注意力机制: 将生成序列中的词与图像中的特定区域对齐,例如生成“stop sign”时模型会关注图像中的停车标志。
- 生成对抗网络 (GANs):
- 通过生成器和判别器的对抗训练,可根据文本提示生成图像,是 Stable Diffusion 等模型的早期雏形。
多模态特征提取与融合的挑战与方法
- 特征提取:
- 文本: 通常表示为
[batch_size, sequence_length, embedding_size]的3D张量。 - 图像:
- 区域特征 (Region Features): 使用物体检测器 (如 YOLO) 识别图像中的物体,并为每个区域(如滑板)提取 CNN 特征。
- 密集特征 (Dense Features):
- 卷积神经网络 (CNN): 如 ResNet,其预训练特征可直接用于多种视觉任务,取代了传统复杂的计算机视觉流程。
- 视觉 Transformer (ViT): 将图像分割成小块 (patches),展平后输入 Transformer 进行分类或特征提取。
- 文本: 通常表示为
- 多模态融合 (Multimodal Fusion):
- 核心问题: 如何组合来自不同模态的信息。
- 融合方法:
- 简单方法: 内积、拼接、逐元素乘法/加法。
- 复杂方法: 门控机制、注意力机制、双线性模型 (Bilinear models)、紧凑双线性模型 (Compact Bilinear models)。
- FiLM (Feature-wise Linear Modulation): 一个例子,用一个网络的输出(如文本编码)来调制另一个网络(如 ResNet 的每一层)的特征图,通过乘性因子 (gamma) 和加性偏置 (beta) 实现。
- 融合的层面:
- 早期融合: 在模型早期阶段即融合特征。
- 中期融合: 在模型中间层进行特征交互。
- 晚期融合: 独立处理各模态,最后融合得分或 logits(如对比学习模型)。
- 多模态学习的固有挑战:
- 模态支配性: 某些模态(尤其是文本)可能主导学习过程,导致模型忽略其他模态信息(VQA 早期曾出现此问题)。
- 噪声引入: 额外模态可能引入噪声,增加学习难度。
- 数据覆盖不全: 并非所有样本都拥有所有模态的数据。
- 实现复杂性与模型设计: 设计有效的多模态模型本身具有挑战性。
对比学习模型 (如 CLIP)
- 属于晚期融合策略。
- 核心思想: 学习一个共享嵌入空间,使得来自不同模态的相似样本对(正样本对,如图像及其对应标题)在该空间中距离相近,不相似样本对(负样本对)距离较远。
- CLIP (Contrastive Language-Image Pre-training) by OpenAI:
- 架构: 文本编码器 (Transformer) 和图像编码器 (ViT 或 ResNet)。
- 训练: 在大规模图文对上进行对比学习(Kiela 描述为在批次内,使匹配的图文对得分高于不匹配的图文对)。Alec Radford 贡献了高质量的包含约3亿图文对的数据集。
- 损失函数: (课件提及 InfoNCE loss) $L = - \log \frac{\exp(s(q, k_+)/\tau)}{\sum_{k \in K} \exp(s(q, k)/\tau)}$
- 零样本学习能力: 通过构造类似 "a photo of the [label]" 的文本提示,CLIP 可以在没有见过特定类别训练数据的情况下进行图像分类。
- 鲁棒性: 在多种数据集上表现出比传统 ResNet 更好的泛化能力,尤其是在对抗性版本的 ImageNet 上。
- Kiela 评价 CLIP 论文:“This is really one that's going to teach you how to write really good papers. It's thorough, and it's really worth a very close read.”
- ALIGN (Google): 类似 CLIP,但使用了更大规模的数据集(18亿图文对)。
- LAION (Large-scale Artificial Intelligence Open Network): 开源项目,创建了大规模高质量图文数据集。
- LAION-400M (4亿样本)
- LAION-5B (50亿多语言样本),Stable Diffusion 在其英文子集上训练。
- (课件补充:GLIP - Grounded Language-Image Pre-training,Florence - 多模态基础模型)
多模态基础模型
- 趋势: 从晚期融合向更早、更深度的融合发展,追求“one model to rule them all”。
- 早期探索 (基于BERT的视觉语言模型):
- VisualBERT: 单流架构,将图像区域特征和文本输入拼接后送入同一个 Transformer。
- VilBERT: 双流架构,图像和文本分别通过独立的 Transformer,层间通过共同注意力 (co-attention) 交互。
- LXMERT: 采用不同的跨模态编码器和位置信息编码方式。
- MMBT (Multimodal Bitransformer) (Kiela 参与的工作): 将图像通过 ResNet 编码后,经池化和投影层输入到预训练的 BERT 的词元空间。特点是不需要大规模多模态预训练,通过冻结和逐步解冻各部分进行微调。
- PixelBERT: 类似 MMBT,但进行了多模态预训练。
- VILT (Vision-and-Language Transformer): 直接将图像块 (patches) 输入 Transformer,无需 CNN 提取区域特征,实现了端到端。
- "Unmasking Multimodal Pretraining" 论文: 指出许多号称新颖的模型在相同数据和训练设置下表现相似,强调了数据和训练方法的重要性。
- FLAVA (Kiela 团队工作):
- 目标: 构建一个能同时处理纯视觉、纯语言和视觉语言任务的统一基础模型。
- 训练数据: 包含纯文本数据 (CC-News, BookCorpus)、纯图像数据 (ImageNet) 和图文对数据 (PMD - 7000万公开图文对的集合)。
- 架构: 图像编码器 (进行类似 MLM 的 Masked Image Modeling)、文本编码器 (MLM)、以及一个多模态模块 (进行 Masked Multimodal Modeling, Image-Text Matching, 和类似 CLIP 的全局对比损失)。
- 在超过35个不同任务上展现了良好性能。
- 生成式多模态模型:
- SimVLM: 采用独立解码器完成图像标题补全任务。
- CoCa (Contrastive Captioner): Kiela 认为是当前 SOTA 之一,包含文本解码器。
- 利用冻结的大语言模型 (LLMs):
- 将图像特征投影到冻结的 LLM (如 T5) 的词元空间,LLM 本身参数不更新。这种方法可以实现少样本学习 (few-shot learning)。
- Flamingo (DeepMind):
- 使用冻结的 Chinchilla LLM 和一个视觉编码器处理多张图像。
- 包含 Perceiver Resampler 组件来压缩不同数量图像的特征。
- 通过门控交叉注意力 (Gated Cross-Attention) 在冻结 LLM 层之前注入视觉信息。
- 在 Kárpáthy 提出的“奥巴马踩体重秤”视觉图灵测试上取得进展。
- BLIP-2:
- 进一步简化,几乎冻结所有组件,仅学习图像编码器和 LLM (如 OPT, Flan-T5) 之间的简单映射 (投影层)。
- 能够生成复杂的图像描述和进行多轮对话。
- 多模态思维链提示 (Multimodal Chain-of-Thought Prompting):
- 让模型先生成一个解释或推理步骤 (rationale),然后再给出最终答案。
- 显著提升了模型在 ScienceQA、Raven Matrices 等复杂推理任务上的性能。
其他模态探索
- 音频/语音:
- Whisper (OpenAI): 在68万小时多语言、多任务语音数据上训练的大型语音识别模型。架构为 Log-Mel 频谱图输入到 Transformer 编码器-解码器。
- 其他方法: Wave2Vec (将波形转为向量)。
- Kiela 提及自己2017年的工作:将音频转为频谱图,用标准 CNN (如 AlexNet) 处理,可获得高质量听觉特征,用于区分乐器等。暗示模态间可能存在某种程度的“简化”关系。
- 视频:
- 许多图像处理思想可直接扩展到视频,但需处理更多数据。
- 通常对视频帧进行子采样,提取关键帧。
- Merlo: 联合视觉和语言 Transformer 处理视频。
- Merlo Reserve: 在 Merlo 基础上加入音频,成为三模态模型。
- 模拟环境与具身智能:
- 通过让智能体在模拟环境中(如迷宫)根据自然语言指令行动和交互来学习语言。
- Kiela 认为这是长期非常有趣的方向,因为它更接近人类在真实世界中通过感知和交互学习语言的方式。
- 3D 数据:
- 文本到3D生成: 如根据文本提示 "a 3D corgi" 生成柯基犬的3D点云模型。
- 嗅觉 (Olfaction):
- Kiela 的博士论文工作,构建嗅觉嵌入。
- 方法: 从香料香精目录 (如 Sigma-Aldrich) 中查找词汇(如“瓜”、“菠萝”)对应的化学成分,构建“化学成分词袋 (bag of chemical compounds)”,然后通过 SVD 等方法降维得到嗅觉向量。
- 结果: 发现这些嗅觉向量在具体名词的相似性判断上,比当时的纯语言向量与人类判断的相关性更高。这表明即使是嗅觉这样的模态也可能对理解语言意义有贡献。
多模态模型评估
- 评估的重要性与挑战: Kiela 强调评估是至关重要的,尤其在学术界资源有限的情况下,做好评估比单纯构建大模型更有价值。
- 常用数据集与任务:
- COCO (Common Objects in Context): 包含丰富的物体分割、边界框、标签和每个图像5个标题。是图像字幕、图文检索等任务的基准。
- VQA (Visual Question Answering):
- 早期版本存在偏见,模型可以不看图像,仅凭问题中的统计规律猜答案(如对“how many”的问题回答“2”的准确率很高)。
- GQA: Chris Manning 等人设计的改进版 VQA 数据集,更注重组合推理。
- CLEVR: 专门设计用于衡量模型对物体间关系和属性的组合理解能力。
- Kiela 团队在评估方面的贡献:
- Hateful Memes Challenge:
- 动机: 创建一个必须依赖真实多模态推理才能解决的数据集。单个模态(纯文本或纯图像)往往会产生误导。
- 构建: 由于版权问题,团队付费让人根据真实 meme 的概念重新创作,使用可授权的图片。包含“良性混淆项 (benign confounders)”,即替换掉图片或文字后意义截然相反的样本。
- 发现: 该数据集揭示了许多所谓的多模态预训练模型效果不佳,提升有限。竞赛的获胜方案多为复杂模型集成,缺乏根本性突破。
- Kiela 指出:“This data set is far from solved, and we still have a long way to go despite all these fancy models.”
- Winoground:
- 动机: 测试 CLIP 等模型是否真正理解组合关系,还是仅仅拟合数据分布。
- 设计: 包含成对的图文样本,文本描述的词汇相同但顺序或结构不同,导致视觉场景截然不同(如“a plant surrounding a light bulb” vs “a light bulb surrounding some plants”;“a truck fire” vs “a fire truck”)。
- 发现: 当时 SOTA 模型在该数据集上表现通常低于随机水平,表明模型在组合泛化上存在严重缺陷。DALL-E 2 在生成类似场景时有所进步,但仍受数据偏见影响(如更倾向于生成勺子而非叉子)。
- Hateful Memes Challenge:
- 核心反思: 当前许多评估基准存在严重问题,无法有效衡量模型的真实能力,需要大力改进。Kiela 强调:“That doesn't tell you something about how great we are as researchers. It tells you something about how terrible our evaluation benchmarks are. And that's what we need to fix.”
未来展望 (下一步去哪里?)
- 统一基础模型: 将出现能够读取和生成多种模态的、与模态无关的统一基础模型 (“One foundation model is going to rule them all.”)。
- 多模态缩放定律 (Scaling Laws): 需要深入理解不同模态之间的关系、数据量与模型性能的扩展规律。
- 检索增强生成 (Retrieval Augmented Generation, RAG): RAG 的各个部分也可以是多模态的,这将是一个重要方向。
- 更好的评估与测量: 持续改进评估方法和基准。
- (课件补充:多模态泛化到未见过的模态、多模态数据增强、多模态具身智能)。
问答环节要点
- 图像块 (Patches) vs. 形状理解: 当前 ViT 等模型直接处理图像块效果很好,类似于 NLP 领域 Transformer 模型不依赖显式语法结构。
- 模型冻结 (Frozen Model): 指在训练过程中不更新模型特定部分的权重,以保留其预训练学到的能力,防止在小数据集上微调时发生灾难性遗忘。
- 早期融合 vs. 晚期融合: 早期融合通常能带来更丰富的多模态理解,但计算成本高;晚期融合(如 CLIP)训练效率高,但模态交互较少。选择取决于具体任务和资源。
- 图像数据的复杂性与偏见: 图像数据带宽更高,但模型同样会学习并放大训练数据中的社会和文化偏见(如种族、性别刻板印象),这是一个亟待解决的重要问题。
- 视频处理: 可以对视频帧进行子采样,结合物体追踪和注意力机制进行分析。
- 处理缺失模态: 许多模型仅为完整多模态输入设计。FLAVA 和 MMBT 等工作尝试处理单模态或部分模态缺失的情况。