音频媒体列表 - StreamSparkAI

2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

2025-05-14 13:38

该讲座概述了大型语言模型（LLM）的构建过程。演讲者首先介绍了LLM（如ChatGPT、Claude、Gemini、Llama等）的基本概念，并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调，尽管学术界常关注架构与算法，但业界实践更侧重于数据、评估和系统的重要性，因此本次讲座将重点讨论后者。 LLM的构建通常分为预训练（Pretraining）和后训练（Post-training）两个阶段。预训练阶段的目标是进行通用语言建模，让模型学习并理解大规模文本数据（如整个互联网的内容）。此阶段的核心任务是语言建模，即模型学习预测一个词元（token）序列出现的概率。当前主流的LLM采用自回归（Autoregressive）语言模型。这类模型通过概率的链式法则，将整个序列的联合概率分解为一系列条件概率的乘积，即在给定前面所有词元的条件下，预测下一个词元出现的概率。其工作流程大致为：首先对输入文本进行词元化（tokenization），将词或子词转换为唯一的ID；然后将这些词元ID输入模型（通常是Transformer架构，但讲座未深入探讨架构细节）；模型会输出一个在整个词汇表上的概率分布，表示下一个最可能的词元。在训练过程中，模型通过比较预测的词元分布与实际出现的词元（通常使用独热编码表示），并利用交叉熵损失函数（Cross-entropy loss）来调整模型参数，以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要，因为它定义了模型的词汇量大小，直接影响模型的输出维度。评估预训练模型的方法包括困惑度（Perplexity）和学术基准测试（如MMLU）。

大型语言模型 LLMs 预训练后训练 RLHF DPO 数据处理模型评估规模法则系统优化词元化

已摘要阅读时间：10 分钟（3289 个字） 3 summary versions

Generative AI Interview Prep 2024: LLMs, Transformers [Crash Course for AI/ML Engineers]

2025-05-14 10:18

该音频内容主要介绍了一个面向AI/ML工程师的生成式AI面试速成课程。主讲人讲解了一个时长一小时的短期课程，旨在帮助求职者准备与生成式AI和大型语言模型相关的面试问题。课程计划涵盖七个热门问题，包括生成模型的定义、生成模型与判别模型的区别，以及Transformer架构的细节（如嵌入、位置编码、多头注意力机制、层归一化、残差连接等）。在具体内容中，主讲人首先定义了生成模型，指出其目标是学习数据的联合概率分布P(X,Y)以模拟数据生成过程，从而能够生成新的数据实例，并常用于无监督学习任务。生成模型的例子包括GPT系列、变分自编码器（VAEs）和生成对抗网络（GANs），可应用于图像生成、合成数据和语音生成等。随后，内容详细对比了生成模型与判别模型。生成模型关注数据如何生成，学习联合概率P(X,Y)；而判别模型仅关注学习条件概率P(Y|X)以区分不同类别，即学习决策边界。主讲人还提及了两种模型在训练焦点、数据用途和具体模型示例（如朴素贝叶斯、隐马尔可夫模型属于生成模型）上的差异。该速成课程被定位为面试准备的起点，并提及了一个更全面的包含100个问题的八小时深度学习面试课程。

生成式AI LLMs Transformer架构 AI/ML面试生成模型判别模型自注意力机制多头注意力位置编码深度学习

已摘要阅读时间：10 分钟（3291 个字） 2 summary versions

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 01 Overview and Tokenization

2025-05-13 16:29

斯坦福大学的CS336课程《从零开始构建语言模型》旨在让学生端到端地理解语言模型构建全流程，包括数据、系统与建模。该课程的讲座将发布于YouTube。主讲人Percy认为，当前研究者与底层技术日益脱节，许多人仅依赖调用大型专有模型接口。他强调，尽管便捷，但这些抽象是“泄露的”，真正的基础研究仍需深入理解技术栈的各个层面。因此，课程的核心理念是“要理解它，就必须构建它”。鉴于前沿模型（如GPT-4）规模庞大、成本高昂且技术细节不公开，学生将专注于构建小型语言模型。Percy承认，小型模型可能无法完全复现大规模模型的某些特性（如不同模块的计算占比变化、特定能力的涌现）。尽管如此，课程仍能传授三个层面的知识：1) 模型运行的“机制”（如Transformer架构、并行计算）；2) “思维模式”（如追求硬件极限性能、严肃对待规模化问题，这被认为是OpenAI成功的关键）；3) 关于数据与模型选择的“直觉”（但这部分受规模效应影响，只能部分传授，因为小规模有效的策略未必适用于大规模）。 Percy还对“惨痛的教训”进行了解读，指出并非“规模决定一切”，而是“规模化的有效算法”至关重要。他强调，效率（尤其是算法效率，其进步已超越摩尔定律）在大规模训练中更为关键。课程旨在引导学生思考的核心问题是：在给定的计算和数据预算下，如何构建出最佳模型。

语言模型 LLMs 从零构建 Transformer Tokenization BPE 并行计算规模法则模型训练模型对齐数据处理 GPU优化

已摘要阅读时间：15 分钟（4925 个字） 2 summary versions

音频媒体文件

2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

Generative AI Interview Prep 2024: LLMs, Transformers [Crash Course for AI/ML Engineers]

Stanford CS336 Language Modeling from Scratch ｜ Spring 2025 ｜ 01 Overview and Tokenization