2025-04-01 | Stanford CS25: V5 I Overview of Transformers

Detailed Summary 摘要

生成：2025-05-18 15:36

摘要详情

音频文件: 2025-04-01 | Stanford CS25: V5 I Overview of Transformers
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-exp-03-25
创建时间: 2025-05-18 15:36:09

摘要内容

概览/核心摘要 (Executive Summary)

本内容总结了斯坦福 CS25 课程第五期关于 Transformer 的概述讲座。讲座首先回顾了开设此课程的初衷，即应对 Transformer 及人工智能日益增长的重要性，并为学生提供学习其工作原理及接触行业与学术界前沿研究的平台。核心讲师团队包括 Steven Feng、Karan Singh、Chelsea Zou 和 Jenny Duan，他们分别介绍了各自在自然语言处理、认知科学、计算机视觉、神经科学、多智能体框架、技术伦理等领域的研究背景与兴趣。

讲座主体内容分为几大模块：首先，Karan Singh 简要回顾了 Transformer 的核心组件，包括词向量（从静态到上下文相关）、自注意力机制（QKV 类比）、位置编码和多头注意力。接着，Steven Feng 深入探讨了预训练阶段的数据策略，通过对比分析两个项目（面向儿童的小规模数据研究与大规模数据两阶段预训练策略），强调了数据质量、结构和使用方式对模型性能的关键影响，并指出了人类学习与当前语言模型在数据效率和学习机制上的差异。随后，Chelsea Zou 和 Steven Feng 共同阐述了训练后策略，包括思维链（CoT）及其多种扩展方法（如思维树、思维程序、问题分解），以及基于反馈的强化学习机制（如 RLHF, DPO, RLAIF, GRPO, KTO 和个性化 RLHF）。Chelsea Zou 还介绍了自我提升 AI 智能体的概念及其实现方法（如 Self-Refine, Reflexion, ReAct, LATS）。Karan Singh 展示了 Transformer 在视觉（ViT, CLIP, VLM）和神经科学（fMRI 数据分析与疾病预测）领域的应用。最后，Jenny Duan 和 Steven Feng 展望了 Transformer 的未来，讨论了潜在应用、实现通用人工智能（AGI）的缺失要素、小型化与端侧 LLM 的趋势、可解释性的重要性、规模化的局限性，并重点探讨了持续与终身学习的挑战与前沿研究方向（如模型编辑）。讲座强调，AI 的未来发展不仅依赖于模型规模的扩大，更在于提升模型的智能性、适应性、效率和可控性。

课程简介与目标

课程背景: 由 Dive 和 Steven Feng 发起，旨在应对 Transformer 和人工智能（AI）日益增长的重要性及其在未来生活中的核心地位。
课程目标:
- 帮助学员理解 Transformer 的工作原理。
- 邀请行业和学术界的顶尖专家分享其在前沿研究领域的成果。
- 促进 AI 和技术领域的学习与进步。
课程形式: 每周邀请一位行业或学术界的研究者就其在 Transformer 领域的最新研究发表演讲。
本次讲座结构:
1. Transformer 基础知识。
2. 预训练与数据策略。
3. 训练后策略（近期热门话题）。
4. Transformer 的应用简介。
5. 当前存在的挑战与弱点。

讲师介绍

Steven Feng:
- 斯坦福大学计算机科学博士三年级在读。
- 本科毕业于加拿大滑铁卢大学。
- 曾在亚马逊（Amazon）、英伟达（Nvidia）从事研究工作。
- 研究方向：自然语言处理（NLP），大型语言模型（LLM）的可控性与推理能力提升，认知科学与心理学启发的工作（弥合机器学习模型与人类学习效率的差距），多模态学习，计算机视觉（如扩散模型、图像生成）。
- 兴趣：与 Karan Singh 共同运营钢琴俱乐部，并提及即将举行的音乐会。
Karan Singh:
- 斯坦福大学电子工程博士二年级在读。
- 本科毕业于加州州立理工大学圣路易斯奥比斯波分校（Cal Poly San Luis Obispo）。
- 研究方向：医学影像，计算机视觉，神经科学（fMRI、超声波），目前在 Sn Adeli 博士的 SAI 实验室工作。
Chelsea Zou:
- 斯坦福大学符号系统（Symbolic Systems）硕士一年级在读。
- 研究兴趣：多智能体框架，自我提升的 AI 智能体，模型的口译性（[不确定]，原文为 multi ogentic frameworks，根据上下文推测为 multi-agent frameworks；interpretability and explainability of models）。
- 背景：应用数学与神经科学，跨学科研究经验（计算机视觉、机器人学、认知科学）。
- 经历：目前在一家风险投资公司兼职，暑期将在一家对话式 AI 初创公司担任机器学习工程师。
Jenny Duan:
- 斯坦福大学符号系统专业本科在读，同时辅修社会学（Sociology co-term）。
- 背景：技术伦理与政策。
- 经历：曾在 D.E. Shaw 从事产品工作，并在技术伦理与政策领域进行研究。暑期将在纽约一家 AI 时尚科技初创公司 Daydream 工作。
Dive (未出席，由 Steven Feng 介绍):
- 目前从斯坦福大学计算机科学博士项目休学，创办 AI 智能体初创公司 AI Inc。
- 研究兴趣：机器人学，AI 智能体。
- 未来可能在本课程中就 AI 智能体发表演讲。
- 曾任职于英伟达（Nvidia）、谷歌（Google）。
- 是本课程的最初发起人。

课程安排与资源

课程网站: cs25.stanford.edu，将发布更新、演讲者阵容等信息。
Zoom 链接: 将通过网站分享，供非斯坦福附属人员、候补名单或未能入学的学生远程参与。
课程收获:
- 深入理解 Transformer 及大型语言模型（LLM）的底层架构。
- 聆听嘉宾演讲，了解其在语言、视觉、生物、机器人等领域的应用。
- 接触来自全国顶尖研究人员的新研究成果。
- 学习驱动下一代模型的创新方法。
- 了解 AI 的关键局限性、开放性问题及未来发展方向。

Transformer 核心概念回顾 (Karan Singh)

词向量 (Word Embeddings):
- 将词语转化为高维空间中的密集向量，因为词语本身不是数字，不能直接输入模型。
- 目标是捕捉语义相似性（例如，“猫”和“狗”比“猫”和“车”更相似，尽管后者字符相似度可能更高）。
- 应用：可视化、Transformer 模型学习、算术运算（如 king - man + woman ≈ queen）。
- 经典方法: Word2Vec, FastText 等。
- 静态词向量的局限性（如“bank”一词多义）催生了上下文相关的词向量 (Contextual Embeddings)，后者考虑词语在句子中的具体语境。
自注意力机制 (Self-Attention):
- 学习每个词元 (token) 应该关注序列中哪些其他词元。
- 通过学习三个矩阵实现：查询 (Query, Q)，键 (Key, K)，值 (Value, V)。
- QKV 类比: 想象在图书馆根据特定主题 (Query) 查找书籍。每本书有摘要 (Key) 帮助识别内容。当 Query 和 Key 匹配时，获取书籍的详细信息 (Value)。Attention 机制在多个 Value 之间进行“软匹配”，从多本书中获取信息。
- 可视化结果显示，模型不同层中，不同词语与句子中其他词语的连接关系。
位置编码 (Positional Encoding/Embeddings):
- 为序列添加顺序信息，因为线性乘法本身不包含位置概念。
- 若无位置编码，模型无法区分词语在句子中的先后顺序。
- 实现方式：如使用正弦函数，或简单地将第一个词标为0，第二个为1等。
多头注意力 (Multi-Head Attention):
- 拥有更多的“头”和参数，意味着可以捕捉到序列中更多样化的关系。
最终的 Transformer 架构: 由上述组件组合而成。
当今的 Transformer 应用:
- 已在几乎所有领域取得主导地位，如 LLM (GPT-4, [GPT-3，原文为003], DeepSeek)、视觉 (Vision)、语音 (Speech)、生物 (Biology)、视频 (Video)。本学期将探讨其中许多应用。
大型语言模型 (LLM):
- 本质上是 Transformer 架构的扩展版本，参数规模巨大。
- 通常在海量通用文本数据（如网络语料库）上进行预训练。
- 训练目标通常是“下一个词元预测”。
- 随着规模扩大，模型会涌现出新的能力（涌现能力, Emergent Abilities），即小模型不具备某些能力，但达到一定规模后会突然出现。
- 缺点: 计算成本高昂，引发对气候和碳排放的担忧。
- 泛化能力: 大型模型具有良好的泛化能力，可通过少量或零样本学习 (few or zero-shot learning) 实现“即插即用”。

预训练策略与数据研究 (Steven Feng)

预训练概述:
- 通常分为两个阶段：预训练和后训练。
- 预训练是从零开始（随机初始化权重）训练神经网络，赋予其通用能力。
- 数据是根本性的“燃料”，模型从数据中学习。
- 目标是在大量数据上训练，以获得通用的能力、知识或智能。
- 数据是训练（尤其是预训练）中最关键的方面，因为 LLM 基于统计分布学习（根据前文预测下一个词元），需要大量数据才能有效学习。
- 核心问题：如何最大限度地利用数据？智能数据策略是当前最重要的议题之一。
Steven Feng 的两个相关项目:
1. 面向儿童的小规模数据集在语言学习中的有效性研究 (小规模)。
2. 针对数十亿/万亿词元的大模型训练的智能数据策略研究 (大规模)。
人类与 LLM 学习的差异:
- 持续学习 vs. 单次学习: 人类持续学习，而许多当前模型是单次预训练。
- 基于目标的交互式学习 vs. 自回归学习: 人类学习有明确目标并与环境互动，模型通常是基于下一个词元预测进行自回归学习。
- 连续多模态/多感官数据 vs. 纯文本/文本+图像: 人类通过多种感官潜意识地学习，模型数据模态有限。
- 结构化/层级化/组合式学习 vs. 下一个词元预测: Steven Feng 认为人脑学习方式可能更结构化，而非简单的统计学习。
- 数据差异: 儿童通过与人对话、故事书学习，LLM 通过互联网海量数据学习。
研究小型模型和小型数据的意义:
- 大幅提高 LLM 训练和使用的效率。
- 开辟新的可能性和潜在用例（如可在手机上本地运行的模型）。
- 提高可解释性，易于控制和对齐（安全、减少偏见）。
- 增强开源可用性，惠及更多研究者和用户。
- 可能帮助更好地理解人类如何高效学习。
项目1：面向儿童的语音是否是语言模型的有效训练数据？ (Is Child-Directed Speech Effective Training Data for Language Models?)
- 背景: 儿童学习语言所需数据量远少于 LLM。
- 核心假设:
  1. 人类接收的数据与 LLM 不同。
  2. 人脑学习算法与 LLM 不同。
  3. 人类接收数据的方式/结构（课程化学习，从简单到复杂）与 LLM 不同。
- 实验:
  - 模型: 小型 GPT-2 和 RoBERTa。
  - 数据集:
    - CHILDES: 与儿童的自然对话转录。
    - TinyDialogues: 使用 GPT-4 合成的面向儿童的对话数据集，语法正确，课程化，词汇量受限，按儿童年龄、参与者等区分。
    - BabyLM: 多种类型数据的混合体（包括 Reddit、维基百科等），更接近典型 LLM 预训练数据。
    - Wikipedia。
    - OpenSubtitles: 电影和电视转录。
  - TinyDialogues 设计理念: 对话促进学习（反馈、反思），学习知识、伦理和道德。
  - 课程化学习实验: 按年龄升序、降序、随机打乱顺序喂给模型数据。
- 评估指标: 语法和句法知识，词汇相似性（语义知识）。
- 结果:
  - 数据集对比: 类儿童数据（尤其是 CHILDES）训练效果不如异构混合数据 (BabyLM)。TinyDialogues 优于 CHILDES（可能因后者噪音较大）。
  - 课程化学习对比: 全局顺序（升序、降序、随机）对模型性能影响不显著。训练损失曲线随课程化分组呈现周期性，但验证损失（泛化能力）趋势一致。
- 结论:
  - 多样化的数据源 (BabyLM) 比纯粹的面向儿童的语音数据为语言模型提供更好的学习效果。
  - 合成的面向儿童的语音数据 (TinyDialogues) 比自然的 (CHILDES) 更有效。
  - 全局发展顺序对性能影响很小。
  - 儿童高效语言学习的原因可能在于其他方面，如从多模态信息中学习，或其大脑学习算法本身比当前语言建模技术更高效。
- 资源: 数据集已在 Hugging Face 和 GitHub 发布，论文已上传至 arXiv。
项目2：最大化数据潜力：通过两阶段预训练增强 LLM 准确性 (Maximizing Data's Potential: Enhancing LLM Accuracy with Two-Phase Pre-training) (Nvidia 实习项目)
- 背景: 优化大规模预训练中的数据选择和训练策略。现有工作（如 LLaMA）虽强调数据混合的有效性，但缺乏具体细节。数据混合和排序对 LLM 预训练至关重要。
- 贡献:
  - 形式化并系统评估两阶段预训练。
  - 经验验证其优于连续训练（将所有数据一次性喂入）。
  - 对两个预训练阶段的数据混合进行细致分析。
  - 提出在较小词元计数上进行原型设计，然后扩展的策略。
- 两阶段预训练方法:
  - 阶段1: 使用更多样化的通用数据，建立广泛的语言理解基础。
  - 阶段2: 转向更高质量、特定领域的数据（如数学）。需平衡质量与多样性，避免过拟合。
- 结果:
  - 有效性: 所有两阶段预训练实验均优于单阶段基线，且明显优于随机混合或自然数据分布。
  - 可扩展性: 该方法在模型规模和数据规模上均能有效扩展，性能随之提升。
  - 阶段2持续时间: 性能随阶段2占比增加而提升，约在40%时达到峰值，之后出现收益递减（可能因专业数据量少、多样性低导致过拟合）。
- 结论: 精心构建的两阶段预训练，通过仔细的数据选择和管理，对于优化 LLM 性能同时保持跨下游任务的可扩展性和鲁棒性至关重要。论文已上传至 arXiv。
预训练数据策略总结:
- 数据有效性不仅在于数量，还在于质量、顺序和结构。
- 项目1表明，全局顺序在小规模训练中影响可忽略。项目2表明，基于阶段的训练对大规模学习高效。
- 智能的数据决策对于模型在任务间泛化至关重要。
- 未来 LLM 训练需要更智能的数据组织，利用其结构、质量和特性，以实现更智能、高效、适应性强的模型。

训练后策略 (Post-Training Strategies)

目标: 将预训练好的通用模型适应特定任务、场景、用户、领域等。
主要策略: 微调 (Fine-tuning)（如 RLHF）、基于提示的方法 (Prompt-based methods)、RAG / 基于检索的方法 (retrieval-based methods) 等。

思维链 (Chain-of-Thought - CoT) 及其改进 (Chelsea Zou)

思维链 (CoT):
- 一种提示技术，引导模型“一步一步思考”。
- 展示中间步骤以提供指导，类似于人类分解问题。
- 为模型行为提供了一个可解释的窗口，揭示模型权重中可能蕴含比直接提示响应更多的知识。
- 示例：对比单次回答（错误）与 CoT 回答（正确）。
思维树 (Tree-of-Thoughts - ToT):
- CoT 的扩展，考虑多个推理路径而非单一路径。
- 使用自我评估（如多数投票）来决定最终输出。
思维程序 (Program-of-Thought - PoT):
- 生成代码作为中间推理步骤。
- 将问题解决过程交给代码解释器，将语言形式化为程序以获得更精确的答案。
问题分解：苏格拉底式提问 (Problem Decomposition: Socratic Questioning):
- 使用自问模块让 LLM 提出与原始问题相关的“子问题”。
- 通过递归地回答子问题来解决原始问题。
- 示例：“什么填充了气球？” -> “什么能让气球漂浮？”
问题分解：计算图 (Problem Decomposition: Computation Graphs):
- 将组合任务表述为计算图，将推理分解为子过程和节点。
- Transformer 可以通过将推理简化为子图匹配来解决组合任务，而无需开发系统性的问题解决技能。

强化学习 (RL) 与反馈机制 (Steven Feng)

基于人类反馈的强化学习 (Reinforcement Learning with Human Feedback - RLHF):
- 直接从人类反馈中训练一个“奖励模型”。人类对模型生成的响应对进行排序（哪个更好）。
- 使用该奖励模型作为奖励函数，通过 PPO 等优化算法来优化智能体的策略。
直接偏好优化 (Direct Preference Optimization - DPO):
- 对 PPO [应指对 RLHF 奖励模型方法的改进] 的改进，更直接地训练模型以偏好人类评价更高的输出，无需单独的奖励模型，效率更高。
- 通过最大化生成偏好补全的似然性并最小化不偏好补全的似然性来微调 LLM。
基于 AI 反馈的强化学习 (Reinforcement Learning with AI Feedback - RLAIF):
- 用一个表现良好的人工智能（LLM）的偏好判断取代昂贵的人类偏好标注。
- 在这些 AI 生成的偏好标签上训练奖励模型，并用 RL 微调策略。
- 人类评估者认为 RLAIF 调整的输出与 RLHF 输出效果相近，表明这是一种更具可扩展性和成本效益的方法。
- 缺点: 效果依赖于提供偏好判断的 LLM 的能力和准确性。
群体相对策略优化 (Group Relative Policy Optimization - GRPO):
- PPO 的一种变体，应用于 DeepSeek Math 等模型。
- 对一个群体内的多个响应进行排序（而非仅成对比较），提供更丰富、细致的反馈。
- 有助于稳定训练，提高 LLM 推理能力（尤其在数学等任务上），更高效。
卡尼曼-特沃斯基优化 (Kahneman-Tversky Optimization - KTO):
- 修改标准损失函数以考虑人类偏见，如损失厌恶。
- 鼓励 AI 更多地避免负面结果（最小化灾难性错误）而不是仅仅追求正面结果，使模型行为更符合人类在特定任务中的风险规避倾向。
通过变分偏好学习实现个性化 RLHF (Personalizing RLHF with Variational Preference Learning):
- 不同人群可能有不同的偏好，传统 RLHF 会将它们平均化。
- 引入用户偏好配置文件的潜变量（如不同年龄段），并根据该潜变量训练奖励模型和策略。
- 实现“多元化对齐”，提高对特定子群体的奖励准确性，使单一模型能适应不同偏好。

自我提升的 AI 智能体 (Self-Improving AI Agents) (Chelsea Zou)

AI 智能体定义: 一个感知环境、做出决策并采取行动以实现（通常由人类给定的）特定目标的系统。例如游戏、任务解决或研究助理。
AI 智能体组件:
- 目标导向。
- 自主决策。
- 可迭代行动。
- 具备记忆和状态跟踪能力。
- 可使用工具（如 API 调用、函数调用）。
- 能够学习和适应。
自我提升 (Self-Improvement): 模型可以反思自己的输出以迭代地改进自己。
- 包括：反思内部状态、解释推理过程、评估自身输出质量、模拟多步推理链。
自我提升技术:
- 改进 - 精炼 (Refinement - Self-Refine): 一种迭代提示方法，LLM 批评并改进其自身的输出。
  - 流程：生成初始响应 -> 评估弱点和不一致之处 -> 基于自我批评改进响应。
- 改进 - 反思 (Reflexion): 模型从过去的错误中学习，并根据先前的失败调整未来的响应。通常包含长期记忆组件。
  - 流程：模型检测到不正确或薄弱的响应 -> 反思错误并生成改进的响应 -> 经过多次迭代，准确性和推理能力得到提高。
- 改进 - ReAct (Reasoning + Acting): 将推理与外部行动（如 API 调用、数据库检索）相结合。模型与环境动态交互，并从交互中获取反馈。
  - 流程：模型生成推理计划 -> 调用外部工具（如网络搜索） -> 模型将检索到的数据整合到最终响应中。
- 改进 - 语言智能体树搜索 (Language Agent Tree Search - LATS):
  - 将 ReAct 扩展到包含多个规划路径（类似 CoT 与 ToT 的关系）。
  - 从每个路径收集反馈以改进未来的搜索过程（受强化学习启发）。
  - 使用蒙特卡洛树搜索 (MCTS) 进行优化规划（节点=状态，边=动作）。
  - 流程：生成 N 个“最佳”新动作序列 -> 并行执行它们 -> 对每个动作序列进行评分（使用自我反思） -> 从最佳状态继续探索，更新过去节点的概率。

Transformer 的应用实例 (Karan Singh)

视觉 Transformer (Vision Transformers - ViT)

核心思想: 将图像分割成小块 (patches)，将这些小块线性嵌入并加上位置嵌入，然后输入到标准的 Transformer Encoder 中。
应用: 在图像分类等任务上取得良好效果（末端加 MLP 头）。
与 CNN 对比: 当拥有非常大的数据集（如千万级样本）时，Transformer 因其较少的归纳偏置（CNN 假设局部性）而表现更优。

CLIP (Contrastive Language-Image Pre-training)

图像编码器常使用 ViT。
是 GPT-4o 等视觉语言模型（VLM）的基础。
通过对比学习训练：将成对的图像和文本对的编码表示在嵌入空间中对齐。

用于视觉语言模型 (Vision Language Models - VLM) 的 ViT

如 GPT-4o，将编码后的图像和文本拼接起来。
分阶段训练，使模型学会同时考虑两种模态进行响应。
在基准测试和任务（如看图回答问题）上表现优异。

Transformer + 神经科学 (Karan Singh 的工作)

功能性磁共振成像 (Functional Magnetic Resonance Imaging - fMRI):
- 通过测量脑区血氧水平（BOLD 信号的代理）来检测大脑活动。
- 可用于诊断疾病、理解认知。数据维度非常高。
- 处理方法：通常先对脑区进行平均或对体素进行分组，以降低计算复杂度。
- 传统工具：线性成对相关图（对帕金森等疾病诊断有效）。
大脑功能网络: 将大脑划分为不同功能网络（如视觉网络、默认模式网络、控制网络等）。
早期机器学习方法: 基于线性相关图，使用传统神经网络进行回归或分类，或进行基于图的分析。
当前基于计算机视觉的方法:
- 将原始 fMRI 数据直接输入 Transformer 模型。
- 预训练目标 (自监督学习): 遮蔽掉一部分脑区随时间变化的数据，让模型通过 Transformer 预测被遮蔽的部分。无需成对标签数据。
- 下游任务: 利用模型学习到的密集表征预测患者属性、疾病风险，或分析模型权重以理解大脑网络。
Karan Singh 的方法:
- 将大脑活动分区，输入未遮蔽部分到 Transformer，预测遮蔽部分，并与真实情况对比作为训练目标。
- 使用交叉注意力 (Cross-Attention): 在两个不同序列间应用注意力机制（如机器翻译中的源语言和目标语言）。其基础架构采用单一交叉注意力解码器，模型小巧易于解释。
- 结果:
  - 模型能较好预测大脑活动（如负责感知和决策的突显网络 Salience Network，负责“发呆”或信息重组的默认模式网络 Default Mode Network）。
  - 注意力权重分析揭示了不同脑网络间的依赖关系（如突显网络依赖于默认模式和控制网络）。
  - 视觉网络、皮层下区域（如记忆相关）的预测效果较差。
- 应用: 将模型一部分替换为可学习的与帕金森病相关的标记，微调后可用于预测该疾病，准确率接近70%，远高于传统基于相关性的方法。

未来展望与挑战

潜在应用与缺失要素 (Jenny Duan)

潜在应用:
- 通用智能体 (Generalist Agents)。
- 更长的视频理解和生成，金融与商业应用。
- 特定领域的基础模型 (如 DoctorGPT, LawyerGPT)。
- 现实世界影响：个性化教育和辅导、先进医疗诊断、环境监测与保护、实时多语言交流、互动娱乐与游戏（如 NPC）。
缺失的要素 (迈向 AGI 的障碍/当前局限):
- 降低计算复杂性。
- 增强人类可控性。
- 与人脑语言模型的对齐。
- 跨领域的自适应学习和泛化。
- 多感官多模态体现（例如，直觉物理学和常识）。
- 无限/外部记忆（如神经图灵机）。
- 无限的自我提升能力（即持续或终身学习，这是人类学习的核心特征，目前无法复制）。
- 完全自主（拥有自身的好奇心、愿望和目标）和长远决策能力。
- 情商和社交理解。
- 伦理推理和价值对齐。

核心挑战与未来方向 (Steven Feng)

效率：小型化与设备端 LLM (Minified LLMs and On-Device LLMs):
- LLM 在日常应用中的大趋势，要求能在手机、智能手表等小型设备上快速轻松地运行。
- 当前小型开源模型（如 DeepSeek, LLaMA, Mistral）仍相对较大且微调成本高。
- 未来目标：能够在本地设备上微调和运行模型。
LLM 的可解释性 (Interpretability of LLMs):
- LLM 因其巨大的参数和数据量成为难以理解的“黑箱”。
- 提升可解释性有助于：更好地改进模型、更容易控制、实现更好的对齐/安全（如防止产生不安全或不道德的输出）。
- 机制可解释性 (Mechanistic interpretability): 理解模型中单个组件、操作（甚至到单个节点级别）如何对其整体决策过程做出贡献，旨在解开模型的“黑箱”。
规模化的局限性 (Limits of Scaling?):
- 单纯扩大模型规模和数据量似乎正面临收益递减，预训练性能可能正在饱和。
- 因此，更关注训练后方法，但这受限于基础模型的整体性能/能力。预训练仍是基础。
- 过多的训练后处理可能导致“灾难性遗忘” (Catastrophic Forgetting)，即模型忘记预训练阶段学到的知识。
- 突破规模法则限制的途径:
  - 新的架构（如 Mamba 状态空间模型，甚至非 Transformer 架构）。
  - 更高质量的数据和智能的数据组织策略。
  - 改进的训练程序、算法、损失函数、优化算法。
  - 将高级能力赋予较小的模型。
  - 加强理论和可解释性研究，以及受认知科学/神经科学启发的工作。
  - 下一步：模型不仅要更大，还要更智能、更具适应性。

持续与终身学习 (Continual & Lifelong Learning) (Steven Feng)

核心问题: AI 系统在部署后（预训练后）通过学习、利用隐式反馈和真实世界经验来持续改进，实现无限和永久的基础性自我提升。这不仅仅是 RAG 或检索，而是更新模型的“大脑”或权重。
与人类学习的对比: 人类每天从互动中学习，而模型在预训练冻结后通常不学习（除非进行微调，但这与人类学习方式不同）。当前模型在推理时不更新权重，这是一种浪费。
重要性: 极具挑战性，但可能是通往 AGI 或真正类人 AI 系统的关键之一。
当前研究现状:
- 一些工作（如基于更好模型的轨迹微调小模型，模型蒸馏）更像是重新训练，而非真正的“持续学习”。
- 核心机制探索: 梯度更新？记忆架构？元学习？
模型编辑用于持续学习 (Model Editing for Continual Learning?):
- 与机制可解释性相关，旨在当获得新事实或数据点时，更新模型中的特定节点或神经元，而非整个模型。
- Rank-One Model Editing (ROME): 使用因果干预方法追踪模型事实预测的关键神经元激活，并相应更新它们。
- 弱点:
  - 主要适用于简单的基于知识的事实，难以更新模型的实际技能或能力（如数学、逻辑推理）。
  - 难以将更改传播到其他相关或依赖的事实（例如，更新某人母亲的信息，应同时更新其兄弟姐妹的相关信息，但此类方法通常只更新原始目标）。
其他持续学习方面的工作 (简述):
- [不确定，原文为 distinthing commment，根据描述可能指 MEMIT 或类似技术]: 对事实知识进行大规模编辑，能同时修改数千个（可能相关的）“记忆”，而非单个事实。
- CEM (Continue Evolving from Mistakes): 识别 LLM 错误，检索纠正数据，并增量更新模型以实现自我改进。
- Lifelong Mixture-of-Experts: 动态增加新的专家模块以适应新的领域或时间段，同时冻结过去的专家以避免遗忘。
- CLOB: 仅使用提示（无需更新模型权重）实现持续的任务学习，方法是将过去的知识总结为压缩的提示记忆。(Steven Feng 评论：这并未真正更新模型的“大脑”或基础能力)
- Progressive Prompts: 为每个任务学习软提示向量并逐步组合它们，使 LLM 能够在没有权重更新或遗忘的情况下持续学习。(Steven Feng 评论：同上，其个人观点认为持续学习应涉及模型权重的更新)

总结与后续安排 (Steven Feng)

讲座内容回顾: 简要概述了 Transformer 的工作原理，预训练（数据的重要性），多种训练后技术（反馈机制、思维链、自我改进），在神经科学、视觉等领域的应用，以及当前存在的弱点（如缺乏持续学习、数据效率、模型小型化等）。
后续课程安排: 每周将邀请行业或学术界的演讲嘉宾分享其前沿研究工作。
信息渠道: 课程更新将通过网站、邮件列表、Discord 等渠道发布。

发言人明确观点总结:

Steven Feng:
- 强调数据质量、结构和智能使用策略对预训练至关重要。
- 认为人脑学习与当前 LLM 在数据效率和学习机制上存在根本差异。
- 对“真正的”持续学习的定义倾向于包含模型权重的更新，而不仅仅是基于提示或外部记忆的适应。
- 认为AI的未来发展方向是更智能、更适应，而不仅仅是更大。
Karan Singh:
- 强调上下文词向量相对于静态词向量的优势。
- 展示了 Transformer 在其研究领域（视觉、神经科学fMRI分析）的强大应用潜力。
Chelsea Zou:
- 重点介绍了多种扩展 CoT 的方法和自我提升 AI 智能体的框架。
Jenny Duan:
- 从更宏观的视角讨论了 Transformer 的广泛应用前景和实现 AGI 所面临的伦理、社会及技术层面的挑战。

返回音频媒体