Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 1 - Intro and Word Vectors

Detailed Summary 摘要

生成：2025-05-15 14:24

摘要详情

音频文件: Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 1 - Intro and Word Vectors
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-exp-03-25
创建时间: 2025-05-15 14:24:14

摘要内容

概览/核心摘要 (Executive Summary)

本讲座为斯坦福大学CS224N《自然语言处理与深度学习》2024年春季学期第一讲，由Christopher Manning教授主讲。讲座首先介绍了课程的整体安排、教学团队、学习目标、评分标准及学术诚信要求，强调了课程旨在帮助学生掌握深度学习在NLP领域的基础和前沿方法，理解人类语言的复杂性，并具备构建实用NLP系统的能力。随后，讲座探讨了人类语言的重要性及其在认知、交流和社会互动中的多重角色，并回顾了深度学习在NLP领域取得的革命性进展，如机器翻译、智能问答和大型语言模型（LLMs）如GPT系列及多模态模型（如DALL-E）的惊人能力。核心技术内容聚焦于词向量（Word Vectors），阐述了从传统的符号表示（如WordNet、One-hot向量）到分布式表示（Distributional Semantics）的转变。重点详细介绍了Word2Vec算法（Mikolov et al., 2013），包括其核心思想（通过上下文预测词语）、目标函数（最大化观测词对的共现概率，即最小化负对数似然）、参数（中心词向量和上下文词向量）以及通过Softmax函数计算概率和利用梯度下降法进行优化的数学推导过程。讲座强调，尽管Word2Vec为每个词学习单一向量，但高维空间特性使其能捕捉词语的多重语义关联。

课程概览与安排

主讲人: Christopher Manning教授。
助教团队:
- 首席助教 (Head TA): [提及姓名，但因健康问题当日缺席]。
- 课程管理员 (Course Manager): [提及在场]。
- 众多其他助教 (TAs): 部分在场并向学生示意。
课程受欢迎程度: 讲座伊始，Manning教授提到，尽管上个季度刚开设过此课程，本学期依旧吸引了大量学生，并风趣地将其归因于“ChatGPT”的巨大影响。
课程信息获取:
- 课程网站: 主要信息来源。
- Ed Discussion: 主要的讨论平台，优先于邮件。
首次作业:
- Assignment 1 (热身作业): 已在网页发布，形式为Jupyter Notebook，旨在让学生快速上手。
- 截止日期: 下周二课前 (剩余不足7天)。
辅导安排:
- Office Hours: 将于次日开始。
- Tutorials: 周五进行。
  - 首个辅导: Python和NumPy入门，旨在帮助编程基础相对薄弱的学生。由助教[提及姓名并指出其在场]负责。
今日课程计划:
1. 课程介绍。
2. 关于人类语言和词义的讨论。
3. Word2Vec算法学习 (核心技术内容)。
4. Word2Vec的目标函数、梯度和优化。
5. (若时间允许) iPython Notebook演示。

课程核心目标

Manning教授阐述了本课程的三个主要学习目标：

掌握深度学习在NLP中的基础与前沿方法:
- 从基础开始：词向量、前馈神经网络、循环网络、注意力机制。
- 快速过渡到核心方法 (2024年NLP常用)：Transformer、编码器-解码器模型。Manning教授补充道：“可能也应该把大型语言模型(Large Language Models)写在这个列表里”。
- 进阶主题：大型语言模型的预训练与后训练、模型适配、模型可解释性、智能体 (Agents)等。
理解人类语言及其在计算机处理上的挑战:
- 向非语言学背景的学生传递语言结构的复杂性。
- 探讨为何计算机理解人类语言如此困难，尽管人类能轻易习得。
具备构建实用NLP系统的能力:
- 目标是让学生在课程结束后，能够在实际工作（初创公司、大厂、非营利组织等）中应用所学知识，例如构建文本分类系统或信息抽取系统。
- 强调实践：“我能构建那个系统，因为我学过CS224N”。

评分与学术诚信

评分构成:
- 4次作业: 每次作业周期约1.5周 (首次作业除外)，占总成绩近一半。
- 期末项目 (Final Project): 占总成绩另一半，有两种选择：
  - 默认项目 (Default Final Project): 提供大量脚手架和指引，但仍具开放性。
  - 自定义项目 (Custom Final Project): 学生完全自主选题。
- 参与度 (Participation): 占少量百分比。
迟交政策: 共6个迟交日 (Late days)。
学术诚信 (Collaboration Policy):
- 作业: 强调独立完成。允许与同学讨论，但必须独立完成作业。
- 期末项目: 可以小组形式完成。
- AI工具使用:
  - 鼓励使用AI工具辅助编码等任务。
  - 禁止直接使用如ChatGPT等工具回答作业问题。Manning教授指出：“那不是学习的方式”。

作业与项目概览

Assignment 1: 简单的Jupyter Notebook入门作业。
Assignment 2:
- 涉及数学推导，理解神经网络工作原理。Manning教授称其为“对某些人来说是整个课程中最可怕的作业”。
- 引入PyTorch（用于构建神经网络的软件包）。
- 构建一个依存句法分析器 (Dependency Parser)。
Assignment 3 & 4:
- 基于PyTorch和GPU的大型项目。
- 将使用Google Cloud。
- 内容涉及机器翻译和使用Transformer进行信息抽取。
期末项目选项:
- 默认项目: 提供大量框架和指导，但仍鼓励学生探索不同方法以改进系统。
- 自定义项目: 学生完全自主设计和实施项目。
期末项目导师分配 (Q&A环节):
- 学生可自行寻找导师。
- 若无，将由课程助教担任导师，由负责期末项目的助教根据专业知识和学生数量进行分配。

人类语言与词义探讨

语言与智能:
- Manning教授认为，语言是人类区别于近亲（如黑猩猩）的关键智能特征之一。尽管黑猩猩在工具使用、规划、记忆（短期记忆甚至优于人类）等方面与人类相似，但语言的缺失是显著差异。
- 语言使得人类能够交流，从而实现“人类的优势地位 (human ascendancy)”。
语言的双重角色:
1. 交流工具: 实现信息共享。
2. 高级思维的脚手架: Manning教授认为语言使人类能够进行更复杂的思考和规划，例如内心独白式的计划。
书写的重要性:
- 书写是近5000年才出现的发明。
- 它极大地促进了知识跨越时间和空间的传播，是人类从青铜时代发展到现代科技社会的关键。
语言的社会性与动态性:
- 语言是灵活的社会工具，充满不精确性、细微差别和情感。
- 语言并非一成不变，而是由人类构建并在代际间不断演化。
- 语言创新主要发生在年轻人中（十几岁到二十几岁）。
Herb Clark的名言: > “普遍的误解是，语言的使用主要与词语及其含义有关。事实并非如此，它主要与人以及他们所表达的意思有关。” (The common misconception is that language use has primarily to do with words and what they mean. It doesn't it has primarily to do with people and what they mean.)

NLP领域的深度学习进展

历史背景: NLP研究始于1950年代，但在深度学习出现前的60年间，计算机理解和生成语言的能力有限。
近十年的突破: 深度学习（神经网络）带来了巨大进步。
机器翻译 (Machine Translation):
- 约2014年开始取得突破，2016年已在Google等服务上线。
- 使得跨语言交流变得极为便捷，接近《银河系漫游指南》中的“巴别鱼”(Babel Fish)，只不过载体是手机。
- 示例：通过Google Translate理解肯尼亚斯瓦希里语新闻（关于马拉维两名部长因新冠去世）。
现代搜索引擎:
- 从关键词匹配进化为能够理解问题并直接给出答案的“答案引擎”。
- 示例：提问“肯德里克·拉马尔的首张专辑何时发行？”
- 实现方式：通常涉及多个神经网络（检索神经网络、重排序神经网络、阅读理解神经网络）。
大型语言模型 (Large Language Models - LLMs):
- GPT-2 (约2019年): NLP领域的重要里程碑，首次实现了高质量的流畅文本生成。
  - 示例：根据开头“一枚装有受控核材料的火车车厢今日在辛辛那提被盗……”续写故事。
  - GPT-2展现了对背景知识的理解（如辛辛那提在俄亥俄州，美国能源部管理核材料，盗窃事件等）。
  - 工作方式：基于已生成的文本，逐词预测下一个最可能的词。
- ChatGPT / GPT-4: 用户体验的巨大成功，能够理解并执行指令。
  - 示例：要求起草一封礼貌的邮件给老板Jeremy请假（因9岁儿子[原文为song，应为son] Peter[蜘蛛侠]生病）。模型能纠正拼写错误并生成合适的邮件。
多模态模型 (Multimodal Models):
- 斯坦福大学提出的术语“基础模型 (Foundation Models)”：将LLM技术扩展到不同模态（图像、声音、生物信息数据如DNA/RNA、地震波等）。
- 文生图 (Text-to-Image):
  - DALL-E 2示例：生成“火车驶过金门大桥”的图片（并指出金门大桥上没有火车轨道的事实），以及添加“海湾背景”、“铅笔素描风格”、“同时有汽车”等变体。
  - DALL-E 3示例：根据更复杂的描述（如“一幅图形小说插画，繁华的城市街道在满月照耀下……”）生成高度符合要求的图像。

词义的表示方法

传统语言学观点 (Denotational Semantics):
- 意义被视为符号（能指，signifier，如单词）与观念或事物（所指，signified）之间的配对。
- 示例：“树 (tree)”的意义是世界上所有的树。
- 在编程语言中也有类似概念。
早期计算机表示方法:
- WordNet: 一种复杂的同义词词典，包含词语关系如：
  - 同义词 (synonyms)。
  - 上位词/下位词关系 (is-a kind of)：例如，熊猫是一种食肉动物，食肉动物是一种胎盘哺乳动物。
- WordNet的局限性:
  - 缺乏细微差别 (nuance): 例如，WordNet可能将“proficient”列为“good”的同义词，但在很多语境下（如“a good shot” vs “a proficient shot”）并不恰当。
  - 不完整性: 缺失俚语、新词。
  - 人工构建成本高: 更新维护困难。
One-Hot向量表示法:
- 将每个词视为词汇表中的一个独立符号。
- 每个词表示为一个高维向量，该词对应的维度为1，其余维度为0。
- 问题:
  - 无法体现词义相似性: 任意两个不同词的one-hot向量都是正交的，它们的点积为0。例如，“motel”和“hotel”在表示上毫无关联。
  - 需要额外的资源（如词相似度列表，用于查询扩展）来弥补。
- 属于“局部表示 (localist representations)”，即每个词的意义集中在向量的一个点上。

词向量 (Word Vectors / Embeddings)

分布式语义学 (Distributional Semantics):
- 核心思想源于J.R. Firth (1957)的名言: > “观其伴左右，即可识其词 (You shall know a word by the company it keeps)”。也受到维特根斯坦等哲学家的影响。
- 一个词的意义由其出现的上下文（周围的词）决定。
- 示例：通过分析“banking”一词出现的句子（如“Government debt problems turning into banking crises...”）来理解其含义。
词向量/词嵌入:
- 将词表示为一个相对低维（如8维示例，实际中可能是200-2000维）的稠密向量 (dense vector)。
- 相似性: 意义相近的词，其词向量也相近（点积较大）。
- 嵌入 (Embeddings): 将每个词视为高维空间中的一个点。
- 高维空间的特性: 与二维空间行为差异巨大，能够捕捉词语的多重相似性维度。
- 可视化: 通常使用降维技术（如t-SNE，一种非线性降维方法，优于PCA）投影到二维空间进行观察。
  - 示例图：国家名称和国籍词汇聚集，不同类型的动词（如交流类、移动类、be动词、have动词）形成不同簇。
Q&A环节相关观点:
- 一词多义: 当前介绍的词向量为每个词（字符串）学习一个单一向量，可视为该词所有意义的平均。例如，“star”的向量会同时与天文学词汇（如“nebula”）和名人相关词汇（如“celebrity”）相近。后续课程会介绍上下文相关的词义表示。
- 向量维度选择: 通常根据经验或实际需求（如数据量、模型大小）确定，从100维、300维到现在的1000维甚至2000维。
- 相似性度量: 不仅使用距离，向量的方向也具有语义意义。
- 向量值范围: 通常不严格限定在[-1, 1]，但通过正则化等手段使其值不会过大。

Word2Vec算法详解

提出者与时间: 由Tomáš Mikolov及其在Google的同事于2013年提出。
核心思想:
1. 基于大量的文本语料库 (corpus)。Manning教授幽默地解释了“corpus”的拉丁文原意“身体”，并强调其复数形式是“corpora”而非“corpi”。
2. 为词汇表中的每个词（词类型，word type）学习一个向量表示。
3. 遍历文本中的每个位置，确定一个中心词 (center word, c) 和其上下文词 (context/outside words, o)。
4. 目标是调整词向量，使得能够根据中心词向量较好地预测其上下文词，或者反之。
5. 利用中心词向量和上下文词向量的相似度来计算它们共现的概率。
具体流程 (Skip-gram模型思路，讲座中主要以此为例):
- 对于文本中的每个中心词 w_t。
- 考虑其一个固定大小的上下文窗口 (window size m，例如中心词左右各2个词)。
- 目标是最大化在该中心词出现时，其真实上下文词出现的概率。
- 示例：对于句子片段 "... government debt problems turning into banking crises ...", 如果中心词是 "into"，上下文词可以是 "turning", "banking" (假设窗口为1)。模型的目标是让 P("turning" | "into") 和 P("banking" | "into") 的概率尽可能高。

Word2Vec的数学原理：目标函数与梯度优化

目标函数 (Objective Function):
- 似然函数 (Likelihood):
  L(θ) = Π_{t=1 to T} Π_{-m ≤ j ≤ m, j≠0} P(w_{t+j} | w_t; θ)
  其中 T 是语料库大小，m 是上下文窗口大小，θ 代表模型所有参数（即所有词向量）。
- 负对数似然 (Negative Log-Likelihood): 为便于优化，通常最小化负对数似然。
  J(θ) = - (1/T) Σ_{t=1 to T} Σ_{-m ≤ j ≤ m, j≠0} log P(w_{t+j} | w_t; θ)
  这等价于最大化平均对数似然。
参数 θ:
- 模型中唯一的参数就是词汇表中每个词的词向量。
- 实践中，为每个词 w 维护两个向量：
  - v_w: 当 w 作为中心词时的向量。
  - u_w: 当 w 作为上下文词时的向量。
- 参数量巨大：例如，40万词汇量，100维向量，则参数量为 400,000 * 100 * 2 = 80,000,000。
概率计算 P(o|c; θ) (Softmax函数):
- 点积 (Dot Product): u_o^T v_c，衡量上下文词 o 的向量与中心词 c 的向量的相似度。结果是一个无界实数。
- 指数化 (Exponentiation): exp(u_o^T v_c)，将点积结果映射到正数。
- 归一化 (Normalization):
  P(o|c) = exp(u_o^T v_c) / Σ_{w'∈V} exp(u_{w'}^T v_c)
  其中 V 是整个词汇表。分母是对词汇表中所有可能的上下文词计算分子项并求和，确保输出的概率值在[0,1]之间且总和为1。
- 这个将一组实数转换为概率分布的函数被称为Softmax函数。它会放大数值较大的项的概率，但对较小项仍分配一定概率。
优化过程 (Gradient Descent):
- 初始化: 所有词向量随机初始化。
- 迭代优化:
  1. 计算目标函数 J(θ) 关于每个参数（即每个词向量的分量）的梯度 (gradients)（偏导数）。
  2. 沿着梯度的反方向更新参数，以减小 J(θ)。
    θ_new = θ_old - α ∇_θ J(θ) (其中 α 是学习率)
- 梯度推导示例 (对中心词向量 v_c 求导):
  Manning教授详细推导了 log P(o|c) 对 v_c 的偏导数：
  ∂(log P(o|c)) / ∂v_c = u_o - Σ_{x∈V} P(x|c) u_x
  这个结果可以直观理解为：“观察到的上下文词向量 (u_o)” 减去 “基于当前模型预测的期望上下文词向量 (Σ P(x|c) u_x)”。
  当模型的预测与实际观察一致时，梯度趋近于零，模型达到优化。
- 对上下文词向量 u_o 的梯度推导类似。
核心机制: 通过迭代调整词向量，使得在真实文本中共同出现的词对（中心词-上下文词）具有更高的预测概率。

总结与展望

Manning教授强调，尽管推导过程涉及微积分，但在实际应用中，这些计算将由计算机自动完成。
通过这种从随机向量开始，基于大量文本数据进行数学优化的过程，可以学习到能够有效捕捉词义和词间关系的词向量。
课程将在周四继续深入探讨相关内容。

返回音频媒体