音频媒体列表 - StreamSparkAI

2025-06-11 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 13: Data 1

2025-06-11 11:49

数据：语言模型训练的核心要素

语言模型 LLM 模型训练数据处理预训练指令微调合成数据 Common Crawl 版权法合理使用

已摘要阅读时间：7 分钟（2385 个字） 2 summary versions

2025-04-01 | Stanford CS25: V5 I Overview of Transformers

2025-05-18 15:29

讲座系统地介绍了transformers的基本原理与发展历程，内容包括词向量和上下文嵌入的演变、自注意力机制中查询、键和值的工作原理、位置编码与多头注意力的作用以及最终实现的模型架构。讲者阐述了大规模语言模型预训练的关键策略，如数据混合、两阶段训练以及与人类语言学习数据量对比带来的启示，并探讨了微调、链式思维推理、基于人类反馈的强化学习等后续优化方法。讲座还展示了transformers在自然语言处理、计算机视觉、语音、生物信息、机器人等多个领域的广泛应用，并展望了模型可解释性、终身学习、设备端部署和自我改进智能体的发展前景，同时提出了应对高计算成本和环境影响的挑战。

人工智能 (AI) Transformer 大型语言模型 (LLM) 预训练训练后策略思维链 (CoT) 强化学习 (RLHF) AI智能体数据策略模型可解释性持续学习通用人工智能 (AGI)

已摘要阅读时间：22 分钟（7621 个字） 2 summary versions

Andrej Karpathy | Deep Dive into LLMs like ChatGPT

2025-05-17 22:01

Andrej Karpathy的视频旨在向普通观众介绍大型语言模型（LLM）如ChatGPT的构建和运作原理。构建LLM的首个关键阶段是“预训练”，此阶段始于从互联网收集海量、高质量且多样化的文本数据，例如基于Common Crawl等数据源（已索引数十亿网页）构建的FineWeb数据集。原始数据需经过多重处理，包括URL过滤（排除恶意、垃圾等不良网站）、文本提取（从HTML中分离出有效内容）、语言过滤（如FineWeb侧重于英文内容）、数据去重以及个人身份信息（PII）移除，最终形成一个庞大的、经过清洗的文本语料库（例如FineWeb数据集约为44TB）。在将这些文本输入神经网络之前，必须进行“分词”（tokenization）处理，即将文本转换为由预定义词汇表中的符号组成的序列。此步骤是必要的，因为神经网络需要固定格式的输入，并且旨在优化序列长度（一个宝贵的计算资源），通过平衡词汇表大小和生成的符号序列长度来实现。

大型语言模型 ChatGPT 预训练微调强化学习分词 Transformer架构幻觉工具使用 Andrej Karpathy 多模态上下文窗口

已摘要阅读时间：21 分钟（7246 个字） 3 summary versions

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining

2025-05-15 21:37

斯坦福大学CS224N课程的第九讲主要讨论了自然语言处理中的模型预训练。讲座首先介绍了子词建模（subword modeling）技术，该技术通过将词汇分解为子词单元（如字符、字符组合），以解决固定词汇表在处理未登录词、新词、拼写错误及词形复杂语言（如斯瓦希里语有大量动词变位）时的局限性，从而提升模型对词汇的覆盖和泛化能力，避免将未知词统一映射为“unk”符号导致信息丢失。随后，课程计划探讨预训练的动机（从词嵌入出发）、三种主要的预训练方法（解码器、编码器、编码器-解码器架构）、预训练赋予模型的能力，以及大型模型和上下文学习（in-context learning）等相关主题。讲座开始时还提及了课程作业（如第五项作业将涵盖预训练、Transformer等内容）和项目提案的截止日期安排。

NLP 预训练大语言模型 Transformer 子词建模掩码语言建模上下文学习微调 BERT GPT 思维链提示

已摘要阅读时间：12 分钟（4127 个字） 2 summary versions

2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

2025-05-14 13:38

该讲座概述了大型语言模型（LLM）的构建过程。演讲者首先介绍了LLM（如ChatGPT、Claude、Gemini、Llama等）的基本概念，并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调，尽管学术界常关注架构与算法，但业界实践更侧重于数据、评估和系统的重要性，因此本次讲座将重点讨论后者。 LLM的构建通常分为预训练（Pretraining）和后训练（Post-training）两个阶段。预训练阶段的目标是进行通用语言建模，让模型学习并理解大规模文本数据（如整个互联网的内容）。此阶段的核心任务是语言建模，即模型学习预测一个词元（token）序列出现的概率。当前主流的LLM采用自回归（Autoregressive）语言模型。这类模型通过概率的链式法则，将整个序列的联合概率分解为一系列条件概率的乘积，即在给定前面所有词元的条件下，预测下一个词元出现的概率。其工作流程大致为：首先对输入文本进行词元化（tokenization），将词或子词转换为唯一的ID；然后将这些词元ID输入模型（通常是Transformer架构，但讲座未深入探讨架构细节）；模型会输出一个在整个词汇表上的概率分布，表示下一个最可能的词元。在训练过程中，模型通过比较预测的词元分布与实际出现的词元（通常使用独热编码表示），并利用交叉熵损失函数（Cross-entropy loss）来调整模型参数，以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要，因为它定义了模型的词汇量大小，直接影响模型的输出维度。评估预训练模型的方法包括困惑度（Perplexity）和学术基准测试（如MMLU）。

大型语言模型 LLMs 预训练后训练 RLHF DPO 数据处理模型评估规模法则系统优化词元化

已摘要阅读时间：10 分钟（3289 个字） 3 summary versions

音频媒体文件

2025-06-11 | Stanford CS336 | Language Modeling from Scratch | Spring 2025 | Lecture 13: Data 1

2025-04-01 | Stanford CS25: V5 I Overview of Transformers

Andrej Karpathy | Deep Dive into LLMs like ChatGPT

Stanford CS224N NLP with Deep Learning | 2023 | Lecture 9 - Pretraining

2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)