音频媒体文件

清除
标签搜索结果 for "规模法则"
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma
2025-05-15 22:42

斯坦福大学博士生 Archit Sharma 介绍了大型语言模型的后训练(post-training)过程,旨在阐释如何从基础的预训练模型发展到如 ChatGPT 这样强大的模型。 他首先强调了“规模法则”(scaling laws)的重要性:随着模型参数量(计算量从10^24浮点运算增至超过10^26)和训练数据量(从2022年的1.4万亿词元增至2024年Llama 3的约15万亿词元)的持续增长,模型能力不断提升,但同时也带来了巨大的成本投入。 预训练不仅让模型学习事实知识、语法、语义和多种语言,更重要的是,模型开始展现出理解人类信念、行为和意图的深层能力。例如,模型能根据情境中人物的背景知识预测其不同反应,或在数学、编程(如Copilot辅助编码)、医学(初步诊断,但不建议作为医疗建议)等领域展现应用潜力。尽管预训练任务本质上是预测下一个词元,但模型正演变为通用的多任务助手。 讲座的核心内容将依次探讨: 1. 零样本(Zero-Shot)和少样本(Few-Shot)上下文学习(In-Context Learning)。 2. 指令微调(Instruction fine-tuning)。 3. 基于人类偏好的优化方法(如DPO和RLHF)。 4. 探讨当前技术的局限与未来发展方向。 以GPT系列模型为例,从GPT-1到GPT-2,通过扩大模型规模和数据量,GPT-2展现了零样本学习能力,即模型无需针对特定任务进行额外训练,仅通过巧妙设计提示(prompting),就能执行如文本摘要、问答等多种任务。

大型语言模型 后训练 指令精调 RLHF DPO 上下文学习 零样本学习 少样本学习 提示工程 AI对齐 规模法则 ChatGPT
已摘要 阅读时间:12 分钟(3939 个字) 2 summary versions
2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
2025-05-14 13:38

该讲座概述了大型语言模型(LLM)的构建过程。演讲者首先介绍了LLM(如ChatGPT、Claude、Gemini、Llama等)的基本概念,并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调,尽管学术界常关注架构与算法,但业界实践更侧重于数据、评估和系统的重要性,因此本次讲座将重点讨论后者。 LLM的构建通常分为预训练(Pretraining)和后训练(Post-training)两个阶段。预训练阶段的目标是进行通用语言建模,让模型学习并理解大规模文本数据(如整个互联网的内容)。此阶段的核心任务是语言建模,即模型学习预测一个词元(token)序列出现的概率。 当前主流的LLM采用自回归(Autoregressive)语言模型。这类模型通过概率的链式法则,将整个序列的联合概率分解为一系列条件概率的乘积,即在给定前面所有词元的条件下,预测下一个词元出现的概率。其工作流程大致为:首先对输入文本进行词元化(tokenization),将词或子词转换为唯一的ID;然后将这些词元ID输入模型(通常是Transformer架构,但讲座未深入探讨架构细节);模型会输出一个在整个词汇表上的概率分布,表示下一个最可能的词元。在训练过程中,模型通过比较预测的词元分布与实际出现的词元(通常使用独热编码表示),并利用交叉熵损失函数(Cross-entropy loss)来调整模型参数,以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要,因为它定义了模型的词汇量大小,直接影响模型的输出维度。评估预训练模型的方法包括困惑度(Perplexity)和学术基准测试(如MMLU)。

大型语言模型 LLMs 预训练 后训练 RLHF DPO 数据处理 模型评估 规模法则 系统优化 词元化
已摘要 阅读时间:10 分钟(3289 个字) 3 summary versions
Stanford CS336 Language Modeling from Scratch | Spring 2025 | 01 Overview and Tokenization
2025-05-13 16:29

斯坦福大学的CS336课程《从零开始构建语言模型》旨在让学生端到端地理解语言模型构建全流程,包括数据、系统与建模。该课程的讲座将发布于YouTube。 主讲人Percy认为,当前研究者与底层技术日益脱节,许多人仅依赖调用大型专有模型接口。他强调,尽管便捷,但这些抽象是“泄露的”,真正的基础研究仍需深入理解技术栈的各个层面。因此,课程的核心理念是“要理解它,就必须构建它”。 鉴于前沿模型(如GPT-4)规模庞大、成本高昂且技术细节不公开,学生将专注于构建小型语言模型。Percy承认,小型模型可能无法完全复现大规模模型的某些特性(如不同模块的计算占比变化、特定能力的涌现)。 尽管如此,课程仍能传授三个层面的知识:1) 模型运行的“机制”(如Transformer架构、并行计算);2) “思维模式”(如追求硬件极限性能、严肃对待规模化问题,这被认为是OpenAI成功的关键);3) 关于数据与模型选择的“直觉”(但这部分受规模效应影响,只能部分传授,因为小规模有效的策略未必适用于大规模)。 Percy还对“惨痛的教训”进行了解读,指出并非“规模决定一切”,而是“规模化的有效算法”至关重要。他强调,效率(尤其是算法效率,其进步已超越摩尔定律)在大规模训练中更为关键。 课程旨在引导学生思考的核心问题是:在给定的计算和数据预算下,如何构建出最佳模型。

语言模型 LLMs 从零构建 Transformer Tokenization BPE 并行计算 规模法则 模型训练 模型对齐 数据处理 GPU优化
已摘要 阅读时间:15 分钟(4925 个字) 2 summary versions