音频媒体列表 - StreamSparkAI

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert

2025-05-16 20:47

斯坦福大学CS224N课程邀请了AI2的Nathan Lambert就“DPO之后的发展”发表演讲。Lambert博士首先回顾了语言模型的发展历程，强调了从强化学习背景转向语言模型研究的趋势，并指出后训练阶段（如RLHF和DPO）对于大型语言模型的重要性日益增加。他提到，像Meta这样的大公司在后训练阶段使用的数据量远超研究机构，这给学术研究带来了挑战。讲座的核心在于探讨DPO出现后，模型对齐领域的研究方向和面临的问题。Lambert解释了DPO作为去年的一大突破，使得更多人能够参与到对齐工作中。他还区分了指令微调、监督微调、对齐、RLHF等概念，并强调指令微调（如添加系统提示）仍是当前模型微调的基础，它使模型能够更好地理解和遵循用户指令。

LLM Alignment DPO RLHF Post-training Large Language Models Preference Tuning Instruction Tuning Reward Modeling Online Learning Data Bottlenecks NLP AI Research

已摘要阅读时间：14 分钟（4845 个字） 2 summary versions

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining

2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模（subword modeling）技术，该技术通过将词汇分解为子词单元（如字符、字符组合），以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言（如斯瓦希里语有大量动词变位）时的局限性，从而提升模型对词汇的覆盖和泛化能力，避免将未知词统一映射为“unk”符号导致信息丢失。随后，课程计划探讨预训练的动机（从词嵌入出发）、三种主要的预训练方法（解码器、编码器、编码器-解码器架构）、预训练赋予模型的能力，以及大型模型和上下文学习（in-context learning）等相关主题。讲座开始时还提及了课程作业（如第五项作业将涵盖预训练、Transformer等内容）和项目提案的截止日期安排。

NLP 预训练大语言模型 Transformer 子词建模掩码语言建模上下文学习微调 BERT GPT 思维链提示

已摘要阅读时间：12 分钟（4127 个字） 2 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks

2025-05-15 21:12

该斯坦福CS224N课程的第五讲主要介绍了神经网络的一些补充概念，并引入了自然语言处理中的语言模型任务。随后，课程详细讲解了循环神经网络（RNN）作为构建语言模型的一种方法，并提及了其在后续作业中的应用，同时也指出RNN并非构建语言模型的唯一途径，预告了之后将介绍Transformer模型。讲座还讨论了RNN存在的问题。在深入技术内容前，讲者简要分析了课程学生的构成，并强调了现代神经网络（尤其是语言模型）参数规模的巨大，已达数千亿级别。接着，讲座回顾了神经网络的发展历史：早期（80-90年代）神经网络虽有反向传播算法，但通常只有单一隐藏层，因为训练更深层的网络在当时非常困难，导致该领域停滞了约15年。深度学习的复兴始于2000年代末至2010年代，通过一些关键的技术改进（如更好的正则化方法），才使得深度神经网络的训练成为可能，并展现出远超浅层网络的性能。其中，正则化是一个重要方面。讲座对比了正则化的经典观点与现代大型神经网络中的新认知：经典观点认为正则化旨在防止模型过拟合（即模型在训练数据上表现好，但在新数据上泛化能力差，表现为验证集误差在训练到一定程度后开始上升）。然而，现代观点认为，对于参数量巨大的神经网络，在良好正则化的前提下，即使模型在训练集上达到近乎零误差（即几乎“记住”了整个训练集），其在验证集上的误差也可能持续下降，表明模型依然具备良好的泛化能力。这种现象挑战了传统上对“过拟合即灾难”的看法。

NLP Deep Learning Neural Networks Recurrent Neural Networks Language Models Regularization Gradient Problems Text Generation N-gram Models Stanford CS224N

已摘要阅读时间：12 分钟（4112 个字） 2 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 4 - Dependency Parsing

2025-05-15 21:09

该讲座主要讨论了人类语言句子的句法结构和依存句法分析。讲座首先回顾了传统的短语结构文法（或称上下文无关文法），即通过词性（如名词、形容词、限定词、介词）将词语组合成更大的单元（如名词短语、介词短语），并逐步构建句子结构。随后，讲座重点转向了依存文法，这种方法关注词语之间的修饰和论元关系，确定句子中的核心词（head）以及修饰或依赖于该核心词的其他词语。讲座强调，这两种表示方法都可以用来分析句子的结构，理解词语如何组合以及相互修饰。讲座还提及，后续的作业将要求学生使用PyTorch构建一个神经依存句法分析器，并鼓励学生参加PyTorch教程。

NLP Dependency Parsing Syntactic Structure Dependency Grammar Neural Networks Treebanks Transition-based Parsing Graph-based Parsing Embeddings PyTorch

已摘要阅读时间：9 分钟（3003 个字） 1 summary version

Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 2 - Word Vectors and Language Models

2025-05-15 13:21

该讲座首先通报了课程安排，包括首次作业的截止时间、Python复习课的时间地点、助教答疑的参与方式以及讲师答疑的预约制度，并提醒学生合理使用预约资源。核心内容回顾了优化基础，特别是梯度下降算法，即通过计算损失函数的梯度，并以较小的学习率（alpha）沿梯度反方向更新参数，以逐步最小化损失。由于基本梯度下降在处理大数据集时效率低下，实际中广泛采用随机梯度下降（SGD）。SGD在数据的小批量（mini-batch）上计算梯度进行更新，不仅速度更快，其引入的噪声有时还有助于提升神经网络的优化效果。讲座重点阐述了Word2Vec模型。其工作原理是：首先用随机小数初始化词向量（避免全零以打破对称性）；然后遍历语料库，基于中心词预测上下文词的概率；通过计算预测误差和梯度来更新词向量，使其能更好地预测周围词语。尽管方法简单，Word2Vec能有效学习词语的语义和词间关系。该模型仅包含中心词向量和上下文词向量作为参数，通过计算它们的点积得到概率分布，本质上属于不考虑词序的“词袋模型”。讲师提及将通过一个Jupyter Notebook演示使用Gensim包和GloVe词向量（一种与Word2Vec行为类似的斯坦福模型）。最后，预告了后续课程将深入探讨分类、神经分类以及神经网络等内容。

NLP Deep Learning 词向量 Word Embeddings Word2Vec GloVe 随机梯度下降 SGD 神经网络分类词语相似度词语类比

已摘要阅读时间：12 分钟（4151 个字） 1 summary version

音频媒体文件

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 15 - After DPO by Nathan Lambert

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 5 - Recurrent Neural Networks

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 4 - Dependency Parsing

Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 2 - Word Vectors and Language Models