音频媒体文件
2024-04-11 | Stanford CS25: V4 Intuitions on Language Models
2025-05-18 15:58Jason在演讲中探讨了语言模型表现优异的根本原因。他认为,通过预测下一个词,语言模型实际执行了一种大规模多任务学习,同时掌握语法、词汇、世界知识、情感分析、翻译、空间推理和数学等多方面技能。演讲指出,随着模型规模、数据量和计算资源的不断扩展,模型的整体损失会持续降低,而在某些特定任务上则可能出现能力突然跃升的涌现现象。Jason还以自己在肺癌分类实验中的经历说明,通过仔细观察和分析数据,可以培养对复杂任务的直观理解,这对推动语言模型的发展具有重要意义。
2024-05-30 | Stanford CS25: V4 I From Large Language Models to Large Multimodal Models
2025-05-18 15:43讲座由智谱AI研究科学家丁明主讲,他系统回顾了大规模语言模型的发展历程和多模态模型的最新研究进展。内容从最初基于自监督方法的语言模型探索出发,介绍了早期统一遮掩与自回归训练方法的发展,再到GPT‑3时代通过大规模计算与参数扩展实现性能稳步提升,特别强调了扩展计算资源在模型工程化中的作用。随后,他重点探讨了ChatGPT时代任务适应成本低、预训练知识更为关键的现象,并指出训练损失对下游表现的重要影响。讲座还涵盖了Transformer架构的技术细节更新,如预归一化、旋转位置编码、分组注意力以及通过DeepSpeed和零冗余优化、激活检查点等技术在大规模模型训练中的应用,为多模态系统及未来研究指明了方向。
2025-04-01 | Stanford CS25: V5 I Overview of Transformers
2025-05-18 15:29讲座系统地介绍了transformers的基本原理与发展历程,内容包括词向量和上下文嵌入的演变、自注意力机制中查询、键和值的工作原理、位置编码与多头注意力的作用以及最终实现的模型架构。讲者阐述了大规模语言模型预训练的关键策略,如数据混合、两阶段训练以及与人类语言学习数据量对比带来的启示,并探讨了微调、链式思维推理、基于人类反馈的强化学习等后续优化方法。讲座还展示了transformers在自然语言处理、计算机视觉、语音、生物信息、机器人等多个领域的广泛应用,并展望了模型可解释性、终身学习、设备端部署和自我改进智能体的发展前景,同时提出了应对高计算成本和环境影响的挑战。
2025-04-08 | Stanford CS25: V5 I RL as a Co-Design of Product and Research, Karina Nguyen
2025-05-18 15:21演讲者详细介绍了人工智能产品设计与强化学习研究相互协同的重要性,并通过多个实例展示了AI在教育辅助、交互式工具开发、前端应用及图像生成等领域的创新应用。她强调通过原型快速迭代和用户即时反馈构建更符合实际需求的评估系统,同时探讨了从预测生成到链式思考以及模型自我校准等技术演进路径,表达了对未来AI赋能人类创意与协作的乐观期待。
2025-05-13 | Stanford CS25: V5 I The Advent of AGI, Div Garg
2025-05-18 15:20Div Garg,AGI Inc. 的创始人兼首席执行官,在演讲中探讨了人工智能代理(AI agents)及其通往通用人工智能(AGI)的路径。他指出,AI代理是能够感知、推理并在开放环境中行动的系统,代表着迈向AGI的第一步,有望彻底改变人机交互方式。然而,实现AGI面临诸多挑战,包括推理脆弱、目标漂移、记忆浅薄以及不确定性下的校准问题。解决这些问题不仅需要模型改进,更需要重新思考智能系统的设计、评估和部署方式。 Garg提出了一种受人类启发的代理设计方法,涵盖了新的代理评估标准、在线强化学习训练方法以及代理间通信(如MCP、A2A和Agent Protocol)。他详细阐述了AI代理的架构,包括短期/长期记忆、工具使用能力、高级规划(如反思、自我批评和任务分解)以及执行行动的能力。他通过一个AI代理成功通过加州DMV驾驶考试的案例,展示了代理在现实世界中的应用潜力。 Garg强调,构建AI代理的原因在于它们在数字世界中比人类更高效,能够解锁更高的生产力,并实现更复杂的系统。特别地,开发类人代理至关重要,因为它们能够像人类一样操作为人类设计的计算机界面(如键盘和鼠标),从而实现更直接和广泛的应用。
2025-05-17 | 小Lin说 | 关税过山车,特朗普究竟想干嘛?
2025-05-18 15:08文本深入剖析特朗普政府近年来实施的一系列激进贸易政策背后的逻辑,其核心在于通过加征关税和调整货币政策来推动全球贸易体系重组。分析基于前对冲基金策略师史蒂芬·米兰的政策指南,指出特朗普主要关注制造业回流、缩小贸易逆差以及改善政府财政状况,尤其是降低国债利率和借债成本。关税政策被视为实现限制进口、增加税收、施压对手并作为谈判筹码的重要手段,但同时也可能引发通胀上升和国际反制,损害出口和经济稳定。此外,文本还讨论了通过多边或单边货币干预(如类似海湖庄园协议的构想)促使美元贬值以提升美国竞争力的策略,指出此类措施在实际操作中存在风险和市场波动等诸多不确定性。总体而言,分析客观呈现了特朗普政策在追求短期财政改善与维护国际经济地位之间的复杂博弈及内在矛盾。
PyCon 2024 | Lynn Root: The Design of Everyday APIs
2025-05-18 12:03Lynn Root 在 PyCon 2024 的演讲中探讨了如何设计优秀的 API。她从 Don Norman 的《设计心理学》汲取灵感,强调良好设计的核心在于可发现性(discoverability)和可理解性(understanding)。可发现性包含五个要素:示能(affordances)、意符(signifiers)、约束(constraints)、映射(mappings)和反馈(feedback)。这些要素共同帮助用户构建对产品如何工作的概念模型,从而实现可理解性。 Root 认为这些以人为本的设计原则同样适用于软件 API 设计,旨在优化用户与库之间的交互体验。她以命令行工具 `ffmpeg` 为例,指出即使功能强大,若 API 设计不佳(如文档难懂),也会给用户带来困扰。 为了将理论与实践相结合,Root 提出了她总结的 API 设计三原则,并通过一个名为 "Chaos Queue" 的发布/订阅队列服务库的迭代过程来具体阐释。演讲中,她首先展示了该库的初始版本,包括 `Message` 类和 `Client` 类,以及相应的用户交互代码。随后,她开始应用第一个原则:API 应具备直观性。这意味着 API 应符合用户的直觉,易于理解和使用,避免不必要的复杂性。具体的改进措施之一是使用领域特定术语来命名客户端方法,例如将 `add_message` 改为 `publish`,`get_message` 改为 `pull`,以增强 API 的直观性。演讲旨在为开发者提供将优秀设计理论应用于日常 API 实现的思路。
Andrej Karpathy | Deep Dive into LLMs like ChatGPT
2025-05-17 22:01Andrej Karpathy的视频旨在向普通观众介绍大型语言模型(LLM)如ChatGPT的构建和运作原理。构建LLM的首个关键阶段是“预训练”,此阶段始于从互联网收集海量、高质量且多样化的文本数据,例如基于Common Crawl等数据源(已索引数十亿网页)构建的FineWeb数据集。原始数据需经过多重处理,包括URL过滤(排除恶意、垃圾等不良网站)、文本提取(从HTML中分离出有效内容)、语言过滤(如FineWeb侧重于英文内容)、数据去重以及个人身份信息(PII)移除,最终形成一个庞大的、经过清洗的文本语料库(例如FineWeb数据集约为44TB)。在将这些文本输入神经网络之前,必须进行“分词”(tokenization)处理,即将文本转换为由预定义词汇表中的符号组成的序列。此步骤是必要的,因为神经网络需要固定格式的输入,并且旨在优化序列长度(一个宝贵的计算资源),通过平衡词汇表大小和生成的符号序列长度来实现。
Stanford CS336 Language Modeling from Scratch | Spring 2025 | Scaling laws
2025-05-17 21:56该讲座主要探讨了大规模语言模型(LLM)的伸缩法则(Scaling Laws),旨在通过研究小模型的行为来预测和优化大模型的训练。 核心内容包括: 1. **伸缩法则的动机与历史**:伸缩法则旨在建立模型性能与计算资源(如数据量、模型大小、训练步数)之间的可预测关系,从而在有限的计算预算下高效训练出最佳模型。讲座回顾了伸缩法则思想的早期渊源,如贝尔实验室1993年的工作及后续研究,强调了从理论边界到经验拟合的转变。 2. **关键技术与方法**: * **最大更新参数化 (μP)**:一种旨在使超参数(尤其是学习率)在不同模型宽度下保持稳定的技术。通过调整特定层(如矩阵类、嵌入层、输出层)的初始化方差和学习率缩放,μP试图简化从小型模型到大型模型的超参数迁移。CerebrasGPT和MiniCPM等模型应用了μP,并发现其有助于稳定训练和预测伸缩行为。Lingle的预印本研究进一步验证了μP在宽度伸缩时的有效性,但也指出了其局限性,如对可学习的RMSNorm增益、某些优化器(如Lion)和强权重衰减不鲁棒。 * **Chinchilla伸缩法则与数据/模型权衡**:DeepMind的Chinchilla论文提出了在固定计算预算下,模型大小和训练数据量之间存在最优配比。讲座讨论了如何拟合这类伸缩法则,如$L(N,D) = E + AN^{-\alpha} + BD^{-\beta}$。 * **WSD学习率调度 (Warmup-Stable-Decay)**:为了降低拟合Chinchilla伸缩法则所需的大量完整训练成本,MiniCPM和DeepSeek等采用了分阶段(预热-稳定-衰减)学习率调度。这种方法允许从稳定阶段的检查点开始衰减学习率,从而以较低成本(线性而非平方级)获得不同数据量下的模型性能点,用于伸缩法则分析。 * **IsoFLOP分析**:另一种确定最优模型和数据规模的方法,通过在恒定计算量(FLOPs)下比较不同模型配置的性能。DeepSeek、Llama 3和Hunyuan等模型采用了此类分析。 3. **近期模型案例分析**: * **CerebrasGPT**:应用μP实现了更稳定的伸缩,并基于Chinchilla法则进行训练。 * **MiniCPM**:结合μP和WSD学习率进行精细的伸缩计算,以较小模型尺寸(1-2.5B)实现了高性能,并发现最优数据与模型参数量之比远高于早期Chinchilla研究(如平均192:1,而非20:1)。 * **DeepSeek**:未使用μP,而是直接通过小规模实验估计最优批次大小和学习率的伸缩规律,并采用WSD式学习率进行Chinchilla分析(IsoFLOP方法),其伸缩模型能较好预测最终模型性能。 * **Llama 3**:据报道采用IsoFLOPs式伸缩,数据与参数比约为39:1。 * **Hunyuan-Large**:针对MoE模型,采用IsoFLOPs式伸缩分析激活参数量,发现数据与激活参数的最优比率为96:1。 * **MiniMax-01**:关注架构选择对伸缩法则的影响,结合Chinchilla方法1进行分析。 4. **伸缩实践总结与挑战**: * **挑战**:如何设定模型架构超参数(宽度、深度等)、优化器超参数(学习率、批次大小),以及如何经济地进行Chinchilla式的大范围扫描。 * **解决方案趋势**:依赖超参数稳定性假设或使用μP;在小规模上搜索最优学习率/批次大小,然后固定或预测其伸缩行为;采用WSD等替代学习率调度方案以降低伸缩分析成本。 讲座强调,通过系统性的伸缩法则研究,可以在训练昂贵的大模型前,更科学地做出架构选择和超参数设定,从而提升研发效率和模型性能。近期研究趋势表明,为达到最优性能,模型可能需要比以往认为的更多的数据进行训练。
Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback
2025-05-16 21:06该讲座由斯坦福大学的Jesse Mu博士主讲,核心内容是大型语言模型(LLM)中的提示(prompting)、指令微调(instruction fine-tuning)以及从人类反馈中强化学习(RLHF),这些技术是驱动近期如ChatGPT等聊天机器人发展的关键。 讲座首先提及了课程的一些安排,包括项目提案截止、作业提交以及课程反馈调查。 随后,讲座深入探讨了大型语言模型的发展趋势:模型规模持续扩大,训练数据量不断增加。这使得LLM不仅能预测文本序列,还开始展现出对世界更深层次的理解,例如学习句法、共指消解、情感分析,甚至发展出初步的“世界模型”能力。一个例子表明,LLM能根据输入文本中描述的人物背景(如是否为物理学家)来推断其对物理现象(如真空环境下保龄球和树叶同时落地)的认知。此外,LLM在处理百科知识、数学推理、代码生成乃至医学文本方面也显示出潜力。 讲座的主要目标是阐释如何将仅能预测下一个词的基础语言模型,逐步转化为能执行多样化任务的智能助手,类似ChatGPT。为此,讲座计划分阶段介绍三种技术路径: 1. 零样本(zero-shot)和少样本(few-shot)学习; 2. 指令微调; 3. 从人类反馈中强化学习(RLHF)。 讲座接着详细介绍了零样本和少样本学习。回顾了早期的GPT模型(2018年,1.17亿参数),它是一个仅解码器的语言模型,通过预训练来提升下游任务的性能。随后发布的GPT-2(2019年,15亿参数)在模型规模和训练数据(40GB的WebText数据集,通过筛选Reddit高质量链接构建)上都有显著提升。GPT-2的重要贡献在于揭示了语言模型具备“无监督多任务学习”的能力,特别是零样本学习。这意味着模型无需针对特定任务进行额外的梯度更新或微调,仅通过设计合适的输入提示(将任务转化为序列预测问题),就能执行多种未曾明确训练过的任务。例如,通过提供上下文和问题,让模型续写答案来进行问答;或者通过比较不同句子序列的生成概率来解决需要世界知识的代词消歧任务(如Winograd模式挑战)。GPT-2在当时仅凭零样本学习就在多个语言建模基准测试中取得了领先水平,且无需针对特定任务进行微调。