音频媒体文件

清除
标签搜索结果 for "GloVe"
Stanford CS224N NLP with Deep Learning | Spring 2024 | Lecture 2 - Word Vectors and Language Models
2025-05-15 13:21

该讲座首先通报了课程安排,包括首次作业的截止时间、Python复习课的时间地点、助教答疑的参与方式以及讲师答疑的预约制度,并提醒学生合理使用预约资源。 核心内容回顾了优化基础,特别是梯度下降算法,即通过计算损失函数的梯度,并以较小的学习率(alpha)沿梯度反方向更新参数,以逐步最小化损失。由于基本梯度下降在处理大数据集时效率低下,实际中广泛采用随机梯度下降(SGD)。SGD在数据的小批量(mini-batch)上计算梯度进行更新,不仅速度更快,其引入的噪声有时还有助于提升神经网络的优化效果。 讲座重点阐述了Word2Vec模型。其工作原理是:首先用随机小数初始化词向量(避免全零以打破对称性);然后遍历语料库,基于中心词预测上下文词的概率;通过计算预测误差和梯度来更新词向量,使其能更好地预测周围词语。尽管方法简单,Word2Vec能有效学习词语的语义和词间关系。该模型仅包含中心词向量和上下文词向量作为参数,通过计算它们的点积得到概率分布,本质上属于不考虑词序的“词袋模型”。 讲师提及将通过一个Jupyter Notebook演示使用Gensim包和GloVe词向量(一种与Word2Vec行为类似的斯坦福模型)。 最后,预告了后续课程将深入探讨分类、神经分类以及神经网络等内容。

NLP Deep Learning 词向量 Word Embeddings Word2Vec GloVe 随机梯度下降 SGD 神经网络 分类 词语相似度 词语类比
已摘要 阅读时间:12 分钟(4151 个字) 1 summary version