Stanford CS224N NLP with Deep Learning | Spring 2024 | Lecture 2 - Word Vectors and Language Models
2025-05-15 13:21
该讲座首先通报了课程安排,包括首次作业的截止时间、Python复习课的时间地点、助教答疑的参与方式以及讲师答疑的预约制度,并提醒学生合理使用预约资源。
核心内容回顾了优化基础,特别是梯度下降算法,即通过计算损失函数的梯度,并以较小的学习率(alpha)沿梯度反方向更新参数,以逐步最小化损失。由于基本梯度下降在处理大数据集时效率低下,实际中广泛采用随机梯度下降(SGD)。SGD在数据的小批量(mini-batch)上计算梯度进行更新,不仅速度更快,其引入的噪声有时还有助于提升神经网络的优化效果。
讲座重点阐述了Word2Vec模型。其工作原理是:首先用随机小数初始化词向量(避免全零以打破对称性);然后遍历语料库,基于中心词预测上下文词的概率;通过计算预测误差和梯度来更新词向量,使其能更好地预测周围词语。尽管方法简单,Word2Vec能有效学习词语的语义和词间关系。该模型仅包含中心词向量和上下文词向量作为参数,通过计算它们的点积得到概率分布,本质上属于不考虑词序的“词袋模型”。
讲师提及将通过一个Jupyter Notebook演示使用Gensim包和GloVe词向量(一种与Word2Vec行为类似的斯坦福模型)。
最后,预告了后续课程将深入探讨分类、神经分类以及神经网络等内容。
NLP
Deep Learning
词向量
Word Embeddings
Word2Vec
GloVe
随机梯度下降
SGD
神经网络
分类
词语相似度
词语类比
已摘要
阅读时间:12 分钟(4151 个字)
1 summary version