音频媒体文件

清除
标签搜索结果 for "NLP"
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert
2025-05-16 20:47

斯坦福大学CS224N课程邀请了AI2的Nathan Lambert就“DPO之后的发展”发表演讲。Lambert博士首先回顾了语言模型的发展历程,强调了从强化学习背景转向语言模型研究的趋势,并指出后训练阶段(如RLHF和DPO)对于大型语言模型的重要性日益增加。他提到,像Meta这样的大公司在后训练阶段使用的数据量远超研究机构,这给学术研究带来了挑战。讲座的核心在于探讨DPO出现后,模型对齐领域的研究方向和面临的问题。Lambert解释了DPO作为去年的一大突破,使得更多人能够参与到对齐工作中。他还区分了指令微调、监督微调、对齐、RLHF等概念,并强调指令微调(如添加系统提示)仍是当前模型微调的基础,它使模型能够更好地理解和遵循用户指令。

LLM Alignment DPO RLHF Post-training Large Language Models Preference Tuning Instruction Tuning Reward Modeling Online Learning Data Bottlenecks NLP AI Research
已摘要 阅读时间:14 分钟(4845 个字) 2 summary versions
Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining
2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模(subword modeling)技术,该技术通过将词汇分解为子词单元(如字符、字符组合),以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言(如斯瓦希里语有大量动词变位)时的局限性,从而提升模型对词汇的覆盖和泛化能力,避免将未知词统一映射为“unk”符号导致信息丢失。随后,课程计划探讨预训练的动机(从词嵌入出发)、三种主要的预训练方法(解码器、编码器、编码器-解码器架构)、预训练赋予模型的能力,以及大型模型和上下文学习(in-context learning)等相关主题。讲座开始时还提及了课程作业(如第五项作业将涵盖预训练、Transformer等内容)和项目提案的截止日期安排。

NLP 预训练 大语言模型 Transformer 子词建模 掩码语言建模 上下文学习 微调 BERT GPT 思维链提示
已摘要 阅读时间:12 分钟(4127 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks
2025-05-15 21:12

该斯坦福CS224N课程的第五讲主要介绍了神经网络的一些补充概念,并引入了自然语言处理中的语言模型任务。随后,课程详细讲解了循环神经网络(RNN)作为构建语言模型的一种方法,并提及了其在后续作业中的应用,同时也指出RNN并非构建语言模型的唯一途径,预告了之后将介绍Transformer模型。讲座还讨论了RNN存在的问题。 在深入技术内容前,讲者简要分析了课程学生的构成,并强调了现代神经网络(尤其是语言模型)参数规模的巨大,已达数千亿级别。 接着,讲座回顾了神经网络的发展历史:早期(80-90年代)神经网络虽有反向传播算法,但通常只有单一隐藏层,因为训练更深层的网络在当时非常困难,导致该领域停滞了约15年。深度学习的复兴始于2000年代末至2010年代,通过一些关键的技术改进(如更好的正则化方法),才使得深度神经网络的训练成为可能,并展现出远超浅层网络的性能。 其中,正则化是一个重要方面。讲座对比了正则化的经典观点与现代大型神经网络中的新认知:经典观点认为正则化旨在防止模型过拟合(即模型在训练数据上表现好,但在新数据上泛化能力差,表现为验证集误差在训练到一定程度后开始上升)。然而,现代观点认为,对于参数量巨大的神经网络,在良好正则化的前提下,即使模型在训练集上达到近乎零误差(即几乎“记住”了整个训练集),其在验证集上的误差也可能持续下降,表明模型依然具备良好的泛化能力。这种现象挑战了传统上对“过拟合即灾难”的看法。

NLP Deep Learning Neural Networks Recurrent Neural Networks Language Models Regularization Gradient Problems Text Generation N-gram Models Stanford CS224N
已摘要 阅读时间:12 分钟(4112 个字) 2 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 4 - Dependency Parsing
2025-05-15 21:09

该讲座主要讨论了人类语言句子的句法结构和依存句法分析。讲座首先回顾了传统的短语结构文法(或称上下文无关文法),即通过词性(如名词、形容词、限定词、介词)将词语组合成更大的单元(如名词短语、介词短语),并逐步构建句子结构。随后,讲座重点转向了依存文法,这种方法关注词语之间的修饰和论元关系,确定句子中的核心词(head)以及修饰或依赖于该核心词的其他词语。讲座强调,这两种表示方法都可以用来分析句子的结构,理解词语如何组合以及相互修饰。讲座还提及,后续的作业将要求学生使用PyTorch构建一个神经依存句法分析器,并鼓励学生参加PyTorch教程。

NLP Dependency Parsing Syntactic Structure Dependency Grammar Neural Networks Treebanks Transition-based Parsing Graph-based Parsing Embeddings PyTorch
已摘要 阅读时间:9 分钟(3003 个字) 1 summary version
Stanford CS224N NLP with Deep Learning | Spring 2024 | Lecture 2 - Word Vectors and Language Models
2025-05-15 13:21

该讲座首先通报了课程安排,包括首次作业的截止时间、Python复习课的时间地点、助教答疑的参与方式以及讲师答疑的预约制度,并提醒学生合理使用预约资源。 核心内容回顾了优化基础,特别是梯度下降算法,即通过计算损失函数的梯度,并以较小的学习率(alpha)沿梯度反方向更新参数,以逐步最小化损失。由于基本梯度下降在处理大数据集时效率低下,实际中广泛采用随机梯度下降(SGD)。SGD在数据的小批量(mini-batch)上计算梯度进行更新,不仅速度更快,其引入的噪声有时还有助于提升神经网络的优化效果。 讲座重点阐述了Word2Vec模型。其工作原理是:首先用随机小数初始化词向量(避免全零以打破对称性);然后遍历语料库,基于中心词预测上下文词的概率;通过计算预测误差和梯度来更新词向量,使其能更好地预测周围词语。尽管方法简单,Word2Vec能有效学习词语的语义和词间关系。该模型仅包含中心词向量和上下文词向量作为参数,通过计算它们的点积得到概率分布,本质上属于不考虑词序的“词袋模型”。 讲师提及将通过一个Jupyter Notebook演示使用Gensim包和GloVe词向量(一种与Word2Vec行为类似的斯坦福模型)。 最后,预告了后续课程将深入探讨分类、神经分类以及神经网络等内容。

NLP Deep Learning 词向量 Word Embeddings Word2Vec GloVe 随机梯度下降 SGD 神经网络 分类 词语相似度 词语类比
已摘要 阅读时间:12 分钟(4151 个字) 1 summary version