音频媒体列表 - StreamSparkAI

2025-03-04 | CS224N | Lecture 18 - NLP, Linguistics, Philosophy

2025-06-05 22:45

NLP语言学与哲学探讨及AI未来发展

自然语言处理 (NLP) 人工智能 (AI) 大型语言模型 (LLM) Transformer架构分布语义规模化定律 (Scaling Laws) AI伦理模型可解释性语言学与NLP AI风险符号主义 vs 连接主义

已摘要阅读时间：11 分钟（3602 个字） 1 summary version

2025 MIT | MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention

2025-05-18 16:28

讲师Ava在讲座中详细介绍了深度序列建模的基本概念和实际应用。她首先通过二维平面上预测小球运动轨迹的例子说明，在处理带有时间依赖的数据时，历史信息对预测结果的重要性。接着，她回顾了前一讲中关于感知机和前馈神经网络的内容，并阐释了如何将这些基础模型扩展到序列数据场景，即通过递归神经网络（RNN）传递和更新隐藏状态，从而捕捉数据的时序关系。讲座还指出了序列数据在语音、文本、医疗信号、金融数据等领域内的广泛存在，为后续探讨更先进的基于注意力机制的序列模型奠定了理论基础。

深度序列建模循环神经网络 (RNN) 自注意力机制 Transformer 模型大型语言模型 (LLMs) 自然语言处理 (NLP) 梯度问题长期依赖深度学习 MIT 6.S191

已摘要阅读时间：9 分钟（3079 个字） 2 summary versions

Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 14 - Reasoning and Agents by Shikhar Murty

2025-05-16 21:03

该讲座主要探讨了语言模型在推理领域的应用。首先，讲座定义了推理是利用事实和逻辑得出答案的过程，并区分了演绎推理、归纳推理和溯因推理三种主要类型，同时提及形式与非形式推理，指出讲座重点关注多步骤的非形式演绎推理。接着，讲座探讨了通过提示工程（prompting）引导大型语言模型进行推理的多种方法。其中包括“思维链”（Chain-of-Thought, CoT）提示，即引导模型在给出答案前生成推理步骤，可通过上下文示例或“让我们一步一步思考”等简单指令实现。“自洽性”（Self-Consistency）方法通过对同一问题采样多个推理路径和答案，并选取最常见答案来提升准确性，其效果优于简单模型集成。针对多步骤推理，提出了“由少至多”（Least-to-Most）提示法，它将复杂问题分解为子问题，模型逐步解决并整合答案，显示了其处理复杂推理的潜力，尽管其根本性优势尚待验证。最后，讲座讨论了超越提示工程的策略，如通过知识蒸馏将推理能力赋予小型语言模型。以Orca模型为例，它通过微调使小型Llama模型模仿GPT-4生成的解释和推理过程。训练数据通过结合Flan V2等数据集的指令与GPT-4在特定系统提示下（如要求分步解释）生成的详尽回答来构建。讲座强调，相关领域的研究多为近三四年成果，尚有许多未解问题。

自然语言处理 (NLP) 大型语言模型 (LLMs) AI推理 AI智能体提示工程思维链 (CoT) 知识蒸馏视觉语言模型 (VLMs) 机器学习 AI研究模型评估

已摘要阅读时间：14 分钟（4652 个字） 2 summary versions

音频媒体文件

2025-03-04 | CS224N | Lecture 18 - NLP, Linguistics, Philosophy

2025 MIT | MIT 6.S191: Recurrent Neural Networks, Transformers, and Attention

Stanford CS224N: NLP w/ DL | Spring 2024 | Lecture 14 - Reasoning and Agents by Shikhar Murty