音频媒体列表 - StreamSparkAI

2025-05-23 | Stanford | Controlling Language Models

2025-06-15 21:52

语言模型控制新方法与高效定制技术

语言模型控制人工智能自然语言处理 Prefix-Tuning 参数高效微调 Diffusion-LM 红队测试模型一致性文本生成模型斯坦福大学 Frank-Wolfe算法

已摘要阅读时间：14 分钟（4572 个字） 2 summary versions

2025-03-04 | Transformer Deep Dive with Google Engineer | Foundation of LLMs and Modern AI

2025-06-15 20:50

Transformer架构深度解析：从注意力机制到位置编码

人工智能深度学习自然语言处理 Transformer架构 LLM 注意力机制位置编码多头注意力 KV缓存归一化技术模型推理优化

已摘要阅读时间：17 分钟（5776 个字） 3 summary versions

2023-09-20 | Stanford CS224N NLP with Deep Learning | Lecture 16 - Multimodal Deep Learning, Douwe Kiela

2025-05-20 23:43

多模态深度学习：NLP与图像融合前沿

多模态深度学习自然语言处理计算机视觉人工智能 Transformer 对比学习 CLIP模型基础模型模型评估多模态融合

已摘要阅读时间：13 分钟（4213 个字） 1 summary version

Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback

2025-05-16 21:06

该讲座由斯坦福大学的Jesse Mu博士主讲，核心内容是大型语言模型（LLM）中的提示（prompting）、指令微调（instruction fine-tuning）以及从人类反馈中强化学习（RLHF），这些技术是驱动近期如ChatGPT等聊天机器人发展的关键。讲座首先提及了课程的一些安排，包括项目提案截止、作业提交以及课程反馈调查。随后，讲座深入探讨了大型语言模型的发展趋势：模型规模持续扩大，训练数据量不断增加。这使得LLM不仅能预测文本序列，还开始展现出对世界更深层次的理解，例如学习句法、共指消解、情感分析，甚至发展出初步的“世界模型”能力。一个例子表明，LLM能根据输入文本中描述的人物背景（如是否为物理学家）来推断其对物理现象（如真空环境下保龄球和树叶同时落地）的认知。此外，LLM在处理百科知识、数学推理、代码生成乃至医学文本方面也显示出潜力。讲座的主要目标是阐释如何将仅能预测下一个词的基础语言模型，逐步转化为能执行多样化任务的智能助手，类似ChatGPT。为此，讲座计划分阶段介绍三种技术路径： 1. 零样本（zero-shot）和少样本（few-shot）学习； 2. 指令微调； 3. 从人类反馈中强化学习（RLHF）。讲座接着详细介绍了零样本和少样本学习。回顾了早期的GPT模型（2018年，1.17亿参数），它是一个仅解码器的语言模型，通过预训练来提升下游任务的性能。随后发布的GPT-2（2019年，15亿参数）在模型规模和训练数据（40GB的WebText数据集，通过筛选Reddit高质量链接构建）上都有显著提升。GPT-2的重要贡献在于揭示了语言模型具备“无监督多任务学习”的能力，特别是零样本学习。这意味着模型无需针对特定任务进行额外的梯度更新或微调，仅通过设计合适的输入提示（将任务转化为序列预测问题），就能执行多种未曾明确训练过的任务。例如，通过提供上下文和问题，让模型续写答案来进行问答；或者通过比较不同句子序列的生成概率来解决需要世界知识的代词消歧任务（如Winograd模式挑战）。GPT-2在当时仅凭零样本学习就在多个语言建模基准测试中取得了领先水平，且无需针对特定任务进行微调。

大型语言模型自然语言处理提示工程指令微调 RLHF 强化学习零样本学习少样本学习链式思维 AI对齐奖励模型

已摘要阅读时间：14 分钟（4761 个字） 1 summary version

Stanford CS25: V2 I Introduction to Transformers w/ Andrej Karpathy

2025-05-16 20:54

该转录文本主要介绍了斯坦福大学CS25课程“Transformers United V2”的概览。课程聚焦于深度学习模型“Transformers”，该模型自2017年问世以来，已革新自然语言处理（NLP）领域，并广泛应用于计算机视觉、强化学习、生物学等多个方向。课程旨在深入解析Transformers的工作原理、不同类型及其应用，并邀请了领域内专家进行分享。几位课程讲师进行了自我介绍，并阐述了课程目标，即帮助学生理解Transformers的运作机制、应用场景及前沿研究动态。随后，内容回顾了Transformers的发展历程：从2017年论文《Attention is All You Need》的提出，标志着Transformers时代的开启，到其在NLP领域的迅速普及，再到2018-2020年间扩展至计算机视觉、生物信息学等领域，以及2021年至今生成模型（如GPT、DALL-E、ChatGPT）的爆发式增长。讲师强调了Transformers在处理长序列、理解上下文方面的优势，超越了早期的RNN和LSTM模型。目前，Transformers在零样本泛化、多模态任务、音频与艺术创作、代码生成以及初步的逻辑推理方面展现出强大能力，并通过强化学习与人类反馈（RLHF）技术提升了与人类的交互和对齐。展望未来，Transformers有望在视频理解与生成、金融、商业等领域取得突破，甚至可能用于文学创作。发展方向包括通用智能体、特定领域模型（如医疗GPT、法律GPT）及“专家模型”混合系统。然而，实现这些愿景面临诸多挑战： 1. **记忆与交互**：当前模型缺乏长期记忆和持续学习能力。 2. **计算复杂度**：注意力机制的二次方复杂度亟待优化。 3. **可控性**：需增强对模型输出的精确控制。 4. **与人类认知对齐**：需进一步研究如何使模型的工作方式更接近人类大脑。最后，一位讲师（可能为Andrej Karpathy）简述了AI领域的发展背景，以此引出设立Transformers课程的初衷。

Transformers 深度学习自然语言处理注意力机制模型架构人工智能计算机视觉 GPT模型上下文学习 AI发展史计算效率未来AI

已摘要阅读时间：14 分钟（4802 个字） 3 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 11 - Benchmarking by Yann Dubois

2025-05-16 20:35

该演讲主要讨论了机器学习领域中基准测试和评估的核心作用。主讲人Yann Dubois指出，评估贯穿模型从训练、开发、选择到部署及学术发表的整个生命周期，但不同阶段对评估方法（如速度、成本、可微性、可信度、任务相关性、指标绝对性）有不同侧重。学术基准测试（如MMLU）对推动领域进步至关重要，强调可复现性、标准化及长期有效性，而非指标的短期完美。演讲进一步区分了NLP中的两类评估任务：封闭式任务（如情感分析、文本蕴含），其答案固定，评估方法成熟；以及开放式任务（如文本生成），其答案多样，评估更复杂。

自然语言处理机器学习深度学习基准测试模型评估大型语言模型文本生成文本分类评估指标数据污染人工评估 LLM评估器

已摘要阅读时间：14 分钟（4806 个字） 2 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 6 - Sequence to Sequence Models

2025-05-15 22:01

该讲座是斯坦福CS224N课程关于自然语言处理与深度学习的第六讲，主要延续了先前关于语言模型和循环神经网络（RNN）的讨论。核心内容包括： 1. **回顾与展望**：讲座首先回顾了语言模型（预测下一个词的系统）和RNN（能处理任意长度序列输入、每步共享权重并可选输出的神经网络架构）的基本概念。接着预告将介绍一种更高级的RNN——长短期记忆网络（LSTM），并在后续内容中探讨神经机器翻译。 2. **语言模型评估**：详细阐述了评估语言模型的标准指标——困惑度（Perplexity）。解释了其计算方法（本质上是交叉熵的指数形式）、历史背景（由Fred Jelinek提出，旨在用一个更直观的数值来表示模型预测的不确定性，相当于在多少个选项中均匀选择），以及其意义（更低的困惑度代表更好的模型性能，能更准确地预测人类书写的文本）。讲座还提及，比较困惑度时需注意所使用的对数底（如底数为2或自然对数e）。 3. **模型性能演进**：通过困惑度数值展示了语言模型的发展历程。从传统的N-gram模型（如使用Kneser-Ney平滑，困惑度约67），到早期RNN与其它模型结合（困惑度约51），再到LSTM的应用使得困惑度显著降低（例如降至43或30，相当于交叉熵减少约1比特）。讲座指出，当前最先进的语言模型困惑度已能达到个位数。 4. **RNN的挑战与LSTM的动机**：重点阐述了标准RNN在训练过程中面临的“梯度消失”和“梯度爆炸”问题。这些问题源于在反向传播过程中，损失函数对参数的梯度会随着序列长度的增加而连乘多个雅可比矩阵（在简化情况下，主要是权重矩阵Wh）。如果这些矩阵的范数持续小于1，梯度会趋近于零（梯度消失），导致模型难以学习长距离依赖；如果持续大于1，梯度会指数级增长（梯度爆炸）。这一缺陷是引入LSTM等更复杂RNN结构的主要动机。

自然语言处理深度学习循环神经网络 LSTM 语言模型困惑度梯度消失序列到序列模型神经机器翻译编码器-解码器模型

已摘要阅读时间：9 分钟（3048 个字） 2 summary versions

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 8 - Self-Attention and Transformers

2025-05-15 21:31

该讲座主要介绍了自然语言处理领域从循环神经网络（RNN）向基于自注意力机制和Transformer模型的转变。首先，讲座回顾了以往使用双向长短期记忆网络（BiLSTM）进行编码、单向LSTM结合注意力机制进行解码的NLP模型，并指出了其在处理长距离依赖和并行计算方面的局限性。RNN存在“线性交互距离”问题，即模型难以捕捉序列中远距离词语间的依赖关系，因为信息需要逐词传递，导致梯度传播困难。此外，RNN的计算具有时序依赖性，无法充分利用GPU进行并行处理，计算效率随序列长度增加而降低。接着，讲座提出，尽管注意力机制此前已与RNN结合使用以改善信息瓶颈等问题，但新的范式将更彻底地采用注意力，特别是自注意力机制，以完全取代循环结构。自注意力机制允许模型在处理单个句子时，让每个词直接关注到句子中的所有其他词，从而更好地捕捉长距离依赖，并实现高度并行化的计算。讲座预告将深入探讨自注意力的原理及其在Transformer模型中的应用。此外，讲座还包含了课程安排的通知：新的详细讲义已发布；第四次作业将于一周后截止，由于Azure GPU资源问题，建议使用Colab进行模型训练；最终项目提案的反馈即将发布。

自然语言处理深度学习 Transformer 自注意力 RNN 注意力机制位置编码多头注意力编码器-解码器机器翻译预训练模型

已摘要阅读时间：15 分钟（4947 个字） 2 summary versions

Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 1 - Intro and Word Vectors

2025-05-15 13:21

斯坦福大学CS224N课程（2024年春季学期“深度学习与自然语言处理”）第一讲由Christopher Manning主讲。他首先介绍了课程受欢迎的程度，并概述了本讲内容：课程安排、人类语言与词义，重点讲解诞生于2013年的Word2Vec算法（包括其目标函数、梯度、优化及演示）。课程团队包括主讲人、因故缺席的助教负责人、课程经理及多位助教。课程信息主要通过官网发布，讨论则使用Ed平台而非邮件。首个作业已发布，下周二截止；答疑时间将从次日开始，周五有Python/NumPy辅导。课程学习目标包括：1) 掌握NLP深度学习的基础和前沿方法（从词向量到大型语言模型、预训练、微调、可解释性、智能体等）；2) 理解人类语言特性及计算机处理语言的难点；3) 培养学生构建实用NLP系统的能力。评分由四项作业（近50%）、一个期末项目（可选默认或自定义，约50%）及参与度构成，允许6天延迟提交。作业要求独立完成，期末项目可团队合作。允许使用AI工具辅助学习（如编程），但禁止直接用于完成作业题目。作业安排：A1为入门级Jupyter Notebook；A2侧重数学原理、神经网络理解、PyTorch入门及依存句法分析器构建；A3和A4为基于PyTorch和GPU（使用谷歌云）的大型项目，涉及机器翻译和基于Transformer的信息抽取。期末项目学生可选择有框架指导的默认项目或完全自定义项目，助教将分配导师或学生可自行联系。最后，讲座将探讨人工智能背景下的人类语言与词义问题。

自然语言处理深度学习词向量 Word2Vec 大型语言模型 Transformer 分布式语义学斯坦福大学 CS224N 梯度下降基础模型

已摘要阅读时间：12 分钟（3929 个字） 1 summary version

音频媒体文件