音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "GloVe"

Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 2 - Word Vectors and Language Models

2025-05-15 13:21

该讲座首先通报了课程安排，包括首次作业的截止时间、Python复习课的时间地点、助教答疑的参与方式以及讲师答疑的预约制度，并提醒学生合理使用预约资源。核心内容回顾了优化基础，特别是梯度下降算法，即通过计算损失函数的梯度，并以较小的学习率（alpha）沿梯度反方向更新参数，以逐步最小化损失。由于基本梯度下降在处理大数据集时效率低下，实际中广泛采用随机梯度下降（SGD）。SGD在数据的小批量（mini-batch）上计算梯度进行更新，不仅速度更快，其引入的噪声有时还有助于提升神经网络的优化效果。讲座重点阐述了Word2Vec模型。其工作原理是：首先用随机小数初始化词向量（避免全零以打破对称性）；然后遍历语料库，基于中心词预测上下文词的概率；通过计算预测误差和梯度来更新词向量，使其能更好地预测周围词语。尽管方法简单，Word2Vec能有效学习词语的语义和词间关系。该模型仅包含中心词向量和上下文词向量作为参数，通过计算它们的点积得到概率分布，本质上属于不考虑词序的“词袋模型”。讲师提及将通过一个Jupyter Notebook演示使用Gensim包和GloVe词向量（一种与Word2Vec行为类似的斯坦福模型）。最后，预告了后续课程将深入探讨分类、神经分类以及神经网络等内容。

NLP Deep Learning 词向量 Word Embeddings Word2Vec GloVe 随机梯度下降 SGD 神经网络分类词语相似度词语类比

已摘要阅读时间：12 分钟（4151 个字） 1 summary version