Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 4 - Dependency Parsing

Detailed Summary 摘要

生成：2025-05-15 21:17

摘要详情

音频文件: Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 4 - Dependency Parsing
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-exp-03-25
创建时间: 2025-05-15 21:17:41

摘要内容

概览/核心摘要 (Executive Summary)

本讲座主要探讨了自然语言处理中的句法结构，重点介绍了依存句法分析 (Dependency Parsing)。首先，讲座区分了两种主要的句法结构表示方法：短语结构（或称成分句法，Constituency Grammar）和依存句法 (Dependency Grammar)，并阐述了后者在表示词语间修饰关系上的直观性。讲座强调了理解句法结构对于消除语言歧义的重要性，列举了多种歧义类型（如介词短语附着歧义、并列范围歧义）及其对语义理解的影响。

核心内容转向依存句法分析的实现。讲座回顾了依存句法的历史渊源（如古印度的Pāṇini）以及标注数据（Treebanks，如Universal Dependencies）在现代NLP发展中的关键作用。随后，详细讲解了基于转移的依存句法分析 (Transition-based Dependency Parsing)，包括其基本原理（栈、缓冲区、SHIFT/LEFT-ARC/RIGHT-ARC操作）、早期基于符号特征的机器学习方法 (Nivre, 2000s) 及其局限性（特征稀疏、计算昂贵）。

讲座的重点在于神经依存句法分析。介绍了Chen和Manning (2014) 的工作，该工作将词嵌入、词性嵌入和依存标签嵌入等分布式表示引入基于转移的依存句法分析器，通过神经网络（多层感知机）预测转移操作，显著提升了分析的准确性和效率，并催生了如谷歌的Parsey McParseface (2016) 等成果。最后，简要介绍了另一种重要的依存句法分析方法——基于图的依存句法分析 (Graph-based Dependency Parsing)，及其在神经化后达到的更高准确率。讲座内容与课程作业紧密相关，旨在帮助学生构建自己的神经依存句法分析器。

句法结构：成分句法与依存句法

Speaker 1首先介绍了语言学中思考句法结构的两种主要方式：

短语结构 (Phrase Structure) / 成分句法 (Constituency Grammar):
- 将句子分解为嵌套的短语（成分）。
- 词语首先归类为词性 (Parts of Speech)，如：
  - 名词 (Noun): cat, linguistics
  - 形容词 (Adjective): cuddly
  - 限定词 (Determiner): the (也称冠词 Article)
  - 介词 (Preposition): by, through, on, to
- 词语组合成更大的单元，如：
  - 名词短语 (Noun Phrase, NP): the cuddly cat
  - 介词短语 (Prepositional Phrase, PP): by the door
- 可以使用上下文无关文法 (Context-Free Grammars, CFGs) 来表示这些结构规则，例如：
  - NP -> Det (Adj)* N (名词短语可以由限定词、零个或多个形容词及名词构成)
  - NP -> NP PP (名词短语后可以跟介词短语)
  - PP -> P NP (介词短语由介词和名词短语构成)
依存句法 (Dependency Grammar):
- 核心思想: 句子结构通过词语之间的依存关系来表示，其中一个词（核心词/head）支配另一个词（修饰词/dependent 或 论元/argument）。
- 关系通常用箭头表示，从核心词指向修饰词。
- 示例: "look in the large crate in the kitchen by the door"
  - "look" 是整个句子的核心词。
  - "in" (the large crate) 修饰 "look"。
  - "crate" 是 "in the large crate" 的核心词，被 "large" 和 "the" 修饰。
  - "in" (the kitchen) 和 "by" (the door) 也修饰 "crate"。
- Speaker 1指出，这种表示方式更侧重于词语间的直接修饰关系。

句法结构的重要性与语言歧义

理解句法结构对于机器正确解读语言至关重要，因为人类语言充满了歧义。

人类理解过程: 人类将线性的词语流或声音流转化为具有层次结构的意义表示，识别出词语间的修饰关系。
模型需求: NLP模型同样需要解析句法结构以正确理解语义。
- “当我们转向Transformer语言模型时，它们直接接收词序列，但在神经网络的参数内部，它们实际上识别和构建了同样类型的结构单元。”
歧义的来源与类型:
1. 介词短语附着歧义 (PP Attachment Ambiguity):
  - 示例: "Scientists count whales from space."
    - 解读1: "from space" 修饰 "whales" (科学家数来自太空的鲸鱼)。
    - 解读2: "from space" 修饰 "count" (科学家在太空中数鲸鱼) (此为原文真实含义)。
  - 介词短语在英语中非常普遍，其修饰对象常常不明确。
  - 人类语言具有全局歧义性 (globally ambiguous)，不同于编程语言中通常只有局部且可解决的歧义。
  - 复杂示例: "The board approved its acquisition by Royal Truco Limited of Toronto for $27 a share at its monthly meeting." 句子中连续出现多个介词短语，其附着可能性呈指数级增长（与Catalan数相关）。人类通常能利用上下文和世界知识快速消解。
2. 并列范围歧义 (Coordination Scope Ambiguity):
  - 示例1: "Shuttle veteran and longtime NASA executive Fred Gregory appointed to the board."
    - 解读1: Fred Gregory 是一个人，同时是航天飞机老兵和NASA资深主管。
    - 解读2: 有两个人，一位是航天飞机老兵，另一位是NASA资深主管Fred Gregory。
  - 示例2: "Doctor: no heart, cognitive issues." (来自特朗普政府时期的例子)
    - 解读1: (no heart) and (cognitive issues) (没有心脏问题，但有认知问题)。
    - 解读2: no (heart or cognitive issues) (没有心脏问题也没有认知问题)。
3. 其他歧义:
  - 词汇歧义/结构歧义: "Trigger warning: students get firsthand job experience." (一种解读是学生获得一手的工作经验，另一种[不确定，原文暗示有俚俗解读])。
  - 不定式短语修饰歧义: "Mutilated body washes up on Rio beach to be used for Olympics beach volleyball."
    - 解读1: Rio海滩将被用于奥运沙滩排球。
    - 解读2: 残缺的尸体将被用于奥运沙滩排球。
句法结构的实际应用:
- 信息抽取，如从生物医学文本中提取蛋白质相互作用关系。例如，通过分析 "X interacts with Y" 这样的依存结构来获取事实。

依存句法与依存树库 (Treebanks)

依存句法特性:
- 通过非对称的依存关系（箭头）连接核心词 (head) 和修饰词 (dependent)。
- 箭头通常带有依存关系类型标签，如 nsubj (名词性主语), obj (宾语), amod (形容词修饰语), det (限定词) 等。
- 依存关系构成一个树形结构：连通、无环、单一根节点。
- 通常会为句子添加一个虚拟的 ROOT 节点作为起始点。
历史渊源:
- 依存句法是历史上主要的句法表示方法。
- Pāṇini: 古印度语言学家 (约公元前4-8世纪)，被认为是首位依存句法学家，其梵语语法采用依存结构，且最初为口头流传。
- 阿拉伯语法研究（公元第一个千年）也使用依存语法。
- 相比之下，短语结构语法较为晚近 (1940s, Chomsky 1950s)。
- Speaker 1提及，乔姆斯基层级 (Chomsky hierarchy) 最初是为了论证人类语言的复杂性超越了有限状态自动机等简单模型而提出的。
依存树库 (Dependency Treebanks):
- 早期NLP系统多为规则驱动，效果不佳，原因包括：
  1. 语言用法复杂多样，存在大量“长尾”现象，难以用规则完全覆盖。
  2. 歧义问题难以解决，规则系统无法有效选择正确的分析。
- 转折点 (1980s末-1990s): 构建标注数据集成为NLP研究的重要方向。
- Universal Dependencies (UD) Treebanks: 一个重要的跨语言项目，包含超过100种语言的、采用统一依存标注规范的树库。课程作业将使用此类数据。
- 树库的价值:
  1. 提供可复用的高质量标注数据。
  2. 为机器学习模型提供统计频率信息。
  3. 建立了评估NLP系统性能的标准化方法（在此之前，系统评估往往缺乏系统性）。

基于转移的依存句法分析 (Transition-based Dependency Parsing)

这是一种主流的依存句法分析方法。

句法分析器决策所需信息:
1. 核心词与修饰词之间的双词汇亲和度 (e.g., "discussion of issues" 合理)。
2. 依存距离 (多数依存关系是短距离的)。
3. 中间词信息 (依存关系很少跨越动词或标点)。
4. 核心词的配价 (Valency，即一个词倾向于带多少个、什么类型的论元)。
投射性 (Projectivity):
- 投射性依存 (Projective dependencies): 依存弧不交叉，可以映射为上下文无关文法的树结构。
- 非投射性依存 (Non-projective dependencies): 依存弧交叉。例如："I'll give a talk tomorrow [on neural networks]" (on neural networks 修饰 talk, tomorrow 修饰 give)。问句中也常见。
- 本课程中的分析器将只处理投射性依存。
基于转移的分析过程 (Greedy Decision-based Parsing):
- 数据结构:
  - 栈 (Stack): 存放已处理或部分处理的词语和子结构 (栈顶在右)。
  - 缓冲区 (Buffer): 存放剩余未处理的输入词语 (队首在左)。
  - 依存弧集合 (Set of Arcs): 存储已构建的依存关系。
- 核心转移操作:
  1. SHIFT: 将缓冲区队首的词移入栈顶。
  2. LEFT-ARC (LA): 将栈顶第二个词作为核心词，栈顶词作为其修饰词，建立依存关系，并将修饰词（原栈顶词）从栈中移除。
  3. RIGHT-ARC (RA): 将栈顶词作为核心词，栈顶第二个词作为其修饰词，建立依存关系，并将修饰词（原栈顶第二个词）从栈中移除。
- 示例: "I ate fish" (ROOT I ate fish)
  1. 初始: Stack: [ROOT], Buffer: [I, ate, fish]
  2. SHIFT -> Stack: [ROOT, I], Buffer: [ate, fish]
  3. SHIFT -> Stack: [ROOT, I, ate], Buffer: [fish]
  4. LEFT-ARC (ate <- I) -> Stack: [ROOT, ate], Arcs: {(ate, I)}, Buffer: [fish]
  5. SHIFT -> Stack: [ROOT, ate, fish], Buffer: []
  6. RIGHT-ARC (ate -> fish) -> Stack: [ROOT, ate], Arcs: {(ate, I), (ate, fish)}, Buffer: []
  7. RIGHT-ARC (ROOT -> ate) -> Stack: [ROOT], Arcs: {(ate, I), (ate, fish), (ROOT, ate)}, Buffer: []
  8. 结束: Buffer为空，Stack仅含ROOT。
- 机器学习角色: 在每一步，机器学习模型预测应执行哪种转移操作 (SHIFT, LA, RA)。
- 优点: 线性时间复杂度 (O(n))，效率高。
- 早期方法 (Nivre, 2003): 使用传统的机器学习模型（如SVM、逻辑回归）和大量指示性特征 (indicator features)。
  - 特征示例: 栈顶词是"good"且词性是形容词；栈顶词是"good"且栈顶第二个词是"has"。
  - 问题: 特征数量巨大（数百万），非常稀疏，特征计算本身耗时。
评估指标:
- 无标记附着得分 (Unlabeled Attachment Score, UAS): 正确的（核心词，修饰词）依存弧比例。
- 有标记附着得分 (Labeled Attachment Score, LAS): 正确的（核心词，修饰词，依存关系标签）三元组比例。

神经依存句法分析 (Neural Dependency Parsing)

利用神经网络改进依存句法分析。

动机: 解决传统指示性特征的稀疏性、不完整性和计算成本高的问题。
Chen and Manning (2014) 的神经依存分析器:
- 核心思想: 使用分布式表示 (Distributed Representations) / 嵌入 (Embeddings)。
  - 为词语、词性标签、依存关系标签学习低维稠密的向量表示。
- 模型输入: 将来自栈、缓冲区关键位置（如栈顶两个元素、缓冲区首个元素）的词、词性以及已构建依存关系的嵌入向量拼接起来，形成一个大的特征向量。
- 网络结构:
  1. 输入层: 拼接的嵌入向量。
  2. 隐藏层: h = ReLU(Wx + b)。
  3. 输出层: softmax(W_2h + b_2)，得到SHIFT, LEFT-ARC, RIGHT-ARC等转移操作的概率分布。
- 优势:
  - 稠密表示克服了稀疏性，能捕捉词语、标签间的相似性。
  - 非线性分类器（神经网络）表达能力更强。
  - 结果: 准确率与当时最好的基于图的方法相当，但速度快得多（与传统基于转移的方法同量级）。
  - “尽管你可能认为现在有了实数和矩阵等，肯定会慢下来，但现实是符号模型在特征计算上花费了太多时间，实际上通过使用神经网络，你可以在同时使其更快。”
Google Parsey McParseface (2016):
- 基于Chen and Manning模型，进行了改进（更深的网络、更大的向量、更好的超参数调优、使用集束搜索 (Beam Search) 而非纯贪心策略）。
- 在当时取得了SOTA结果 (e.g., UAS 约 94%)，并进行了广泛宣传。

基于图的依存句法分析 (Graph-based Dependency Parsing)

这是另一种重要的依存句法分析方法。

核心思想:
- 为句子中每对词 (w_i, w_j) 打分，表示 w_j 作为 w_i 的核心词（或 w_i 作为 w_j 的修饰词）的可能性。
- 目标是找到一个总分最高且能构成一棵合法的依存树的依存弧集合。
过程:
1. 打分 (Scoring): 对所有可能的依存弧 (n^2个) 进行打分。特征可以包括弧两端词语、词性、中间词、周围词等。
2. 解码 (Decoding): 使用类似最小生成树 (Minimum Spanning Tree, MST) 的算法（如Chu-Liu/Edmonds算法）从所有可能的弧中选出构成最佳树的弧集合。
神经化:
- 与基于转移的方法类似，也可以使用神经网络来学习依存弧的打分函数。
- Speaker 1提到其团队的工作表明，神经图依存分析器可以达到比Parsey McParseface更高的准确率 (约提升1%以上)。
- 该团队的开源工具包 Stanza 中使用的就是这种更准确的神经图依存分析器。

结论与展望

讲座系统介绍了句法结构，特别是依存句法及其分析方法，从传统符号方法演进到现代神经方法。这些知识对于完成课程作业二（构建神经依存分析器）至关重要。Speaker 1最后提及，更前沿的句法分析进展将涉及到大型语言模型 (LLMs)，这将在后续课程中讨论。

返回音频媒体