音频媒体列表 - StreamSparkAI

应用深度学习 | ADL TA Recitation: LLM LoRA Training 大型语言模型太大怎么调整呢?

2025-06-07 14:18

LLM训练技巧与LoRA方法解析

大型语言模型 LoRA QLoRA 参数高效微调模型微调模型量化 GPU显存优化人工智能 Instruction Tuning bfloat16

已摘要阅读时间：5 分钟（1691 个字） 1 summary version

2025-06-06 | Stanford CS25: V5 | On the Biology of a Large Language Model, Josh Batson of Anthropic

2025-06-06 17:53

Joshua Batson探讨大型语言模型的内部机制与行为特性

大型语言模型机械可解释性 Anthropic 模型电路稀疏自动编码器抽象表征并行计算模型规划能力 AI安全字典学习模型行为分析

已摘要阅读时间：10 分钟（3169 个字） 1 summary version

2024-04-11 | Stanford CS25: V4 Intuitions on Language Models

2025-05-18 15:58

Jason在演讲中探讨了语言模型表现优异的根本原因。他认为，通过预测下一个词，语言模型实际执行了一种大规模多任务学习，同时掌握语法、词汇、世界知识、情感分析、翻译、空间推理和数学等多方面技能。演讲指出，随着模型规模、数据量和计算资源的不断扩展，模型的整体损失会持续降低，而在某些特定任务上则可能出现能力突然跃升的涌现现象。Jason还以自己在肺癌分类实验中的经历说明，通过仔细观察和分析数据，可以培养对复杂任务的直观理解，这对推动语言模型的发展具有重要意义。

人工智能大型语言模型 Transformer架构扩展定律涌现能力下一词预测 Decoder-Only模型计算能力归纳偏置人工智能未来多任务学习

已摘要阅读时间：13 分钟（4256 个字） 3 summary versions

Andrej Karpathy | Deep Dive into LLMs like ChatGPT

2025-05-17 22:01

Andrej Karpathy的视频旨在向普通观众介绍大型语言模型（LLM）如ChatGPT的构建和运作原理。构建LLM的首个关键阶段是“预训练”，此阶段始于从互联网收集海量、高质量且多样化的文本数据，例如基于Common Crawl等数据源（已索引数十亿网页）构建的FineWeb数据集。原始数据需经过多重处理，包括URL过滤（排除恶意、垃圾等不良网站）、文本提取（从HTML中分离出有效内容）、语言过滤（如FineWeb侧重于英文内容）、数据去重以及个人身份信息（PII）移除，最终形成一个庞大的、经过清洗的文本语料库（例如FineWeb数据集约为44TB）。在将这些文本输入神经网络之前，必须进行“分词”（tokenization）处理，即将文本转换为由预定义词汇表中的符号组成的序列。此步骤是必要的，因为神经网络需要固定格式的输入，并且旨在优化序列长度（一个宝贵的计算资源），通过平衡词汇表大小和生成的符号序列长度来实现。

大型语言模型 ChatGPT 预训练微调强化学习分词 Transformer架构幻觉工具使用 Andrej Karpathy 多模态上下文窗口

已摘要阅读时间：21 分钟（7246 个字） 3 summary versions

Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback

2025-05-16 21:06

该讲座由斯坦福大学的Jesse Mu博士主讲，核心内容是大型语言模型（LLM）中的提示（prompting）、指令微调（instruction fine-tuning）以及从人类反馈中强化学习（RLHF），这些技术是驱动近期如ChatGPT等聊天机器人发展的关键。讲座首先提及了课程的一些安排，包括项目提案截止、作业提交以及课程反馈调查。随后，讲座深入探讨了大型语言模型的发展趋势：模型规模持续扩大，训练数据量不断增加。这使得LLM不仅能预测文本序列，还开始展现出对世界更深层次的理解，例如学习句法、共指消解、情感分析，甚至发展出初步的“世界模型”能力。一个例子表明，LLM能根据输入文本中描述的人物背景（如是否为物理学家）来推断其对物理现象（如真空环境下保龄球和树叶同时落地）的认知。此外，LLM在处理百科知识、数学推理、代码生成乃至医学文本方面也显示出潜力。讲座的主要目标是阐释如何将仅能预测下一个词的基础语言模型，逐步转化为能执行多样化任务的智能助手，类似ChatGPT。为此，讲座计划分阶段介绍三种技术路径： 1. 零样本（zero-shot）和少样本（few-shot）学习； 2. 指令微调； 3. 从人类反馈中强化学习（RLHF）。讲座接着详细介绍了零样本和少样本学习。回顾了早期的GPT模型（2018年，1.17亿参数），它是一个仅解码器的语言模型，通过预训练来提升下游任务的性能。随后发布的GPT-2（2019年，15亿参数）在模型规模和训练数据（40GB的WebText数据集，通过筛选Reddit高质量链接构建）上都有显著提升。GPT-2的重要贡献在于揭示了语言模型具备“无监督多任务学习”的能力，特别是零样本学习。这意味着模型无需针对特定任务进行额外的梯度更新或微调，仅通过设计合适的输入提示（将任务转化为序列预测问题），就能执行多种未曾明确训练过的任务。例如，通过提供上下文和问题，让模型续写答案来进行问答；或者通过比较不同句子序列的生成概率来解决需要世界知识的代词消歧任务（如Winograd模式挑战）。GPT-2在当时仅凭零样本学习就在多个语言建模基准测试中取得了领先水平，且无需针对特定任务进行微调。

大型语言模型自然语言处理提示工程指令微调 RLHF 强化学习零样本学习少样本学习链式思维 AI对齐奖励模型

已摘要阅读时间：14 分钟（4761 个字） 1 summary version

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 11 - Benchmarking by Yann Dubois

2025-05-16 20:35

该演讲主要讨论了机器学习领域中基准测试和评估的核心作用。主讲人Yann Dubois指出，评估贯穿模型从训练、开发、选择到部署及学术发表的整个生命周期，但不同阶段对评估方法（如速度、成本、可微性、可信度、任务相关性、指标绝对性）有不同侧重。学术基准测试（如MMLU）对推动领域进步至关重要，强调可复现性、标准化及长期有效性，而非指标的短期完美。演讲进一步区分了NLP中的两类评估任务：封闭式任务（如情感分析、文本蕴含），其答案固定，评估方法成熟；以及开放式任务（如文本生成），其答案多样，评估更复杂。

自然语言处理机器学习深度学习基准测试模型评估大型语言模型文本生成文本分类评估指标数据污染人工评估 LLM评估器

已摘要阅读时间：14 分钟（4806 个字） 2 summary versions

Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma

2025-05-15 22:42

斯坦福大学博士生 Archit Sharma 介绍了大型语言模型的后训练（post-training）过程，旨在阐释如何从基础的预训练模型发展到如 ChatGPT 这样强大的模型。他首先强调了“规模法则”（scaling laws）的重要性：随着模型参数量（计算量从10^24浮点运算增至超过10^26）和训练数据量（从2022年的1.4万亿词元增至2024年Llama 3的约15万亿词元）的持续增长，模型能力不断提升，但同时也带来了巨大的成本投入。预训练不仅让模型学习事实知识、语法、语义和多种语言，更重要的是，模型开始展现出理解人类信念、行为和意图的深层能力。例如，模型能根据情境中人物的背景知识预测其不同反应，或在数学、编程（如Copilot辅助编码）、医学（初步诊断，但不建议作为医疗建议）等领域展现应用潜力。尽管预训练任务本质上是预测下一个词元，但模型正演变为通用的多任务助手。讲座的核心内容将依次探讨： 1. 零样本（Zero-Shot）和少样本（Few-Shot）上下文学习（In-Context Learning）。 2. 指令微调（Instruction fine-tuning）。 3. 基于人类偏好的优化方法（如DPO和RLHF）。 4. 探讨当前技术的局限与未来发展方向。以GPT系列模型为例，从GPT-1到GPT-2，通过扩大模型规模和数据量，GPT-2展现了零样本学习能力，即模型无需针对特定任务进行额外训练，仅通过巧妙设计提示（prompting），就能执行如文本摘要、问答等多种任务。

大型语言模型后训练指令精调 RLHF DPO 上下文学习零样本学习少样本学习提示工程 AI对齐规模法则 ChatGPT

已摘要阅读时间：12 分钟（3939 个字） 2 summary versions

Stanford CS224N NLP with Deep Learning ｜ Spring 2024 ｜ Lecture 1 - Intro and Word Vectors

2025-05-15 13:21

斯坦福大学CS224N课程（2024年春季学期“深度学习与自然语言处理”）第一讲由Christopher Manning主讲。他首先介绍了课程受欢迎的程度，并概述了本讲内容：课程安排、人类语言与词义，重点讲解诞生于2013年的Word2Vec算法（包括其目标函数、梯度、优化及演示）。课程团队包括主讲人、因故缺席的助教负责人、课程经理及多位助教。课程信息主要通过官网发布，讨论则使用Ed平台而非邮件。首个作业已发布，下周二截止；答疑时间将从次日开始，周五有Python/NumPy辅导。课程学习目标包括：1) 掌握NLP深度学习的基础和前沿方法（从词向量到大型语言模型、预训练、微调、可解释性、智能体等）；2) 理解人类语言特性及计算机处理语言的难点；3) 培养学生构建实用NLP系统的能力。评分由四项作业（近50%）、一个期末项目（可选默认或自定义，约50%）及参与度构成，允许6天延迟提交。作业要求独立完成，期末项目可团队合作。允许使用AI工具辅助学习（如编程），但禁止直接用于完成作业题目。作业安排：A1为入门级Jupyter Notebook；A2侧重数学原理、神经网络理解、PyTorch入门及依存句法分析器构建；A3和A4为基于PyTorch和GPU（使用谷歌云）的大型项目，涉及机器翻译和基于Transformer的信息抽取。期末项目学生可选择有框架指导的默认项目或完全自定义项目，助教将分配导师或学生可自行联系。最后，讲座将探讨人工智能背景下的人类语言与词义问题。

自然语言处理深度学习词向量 Word2Vec 大型语言模型 Transformer 分布式语义学斯坦福大学 CS224N 梯度下降基础模型

已摘要阅读时间：12 分钟（3929 个字） 1 summary version

2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)

2025-05-14 13:38

该讲座概述了大型语言模型（LLM）的构建过程。演讲者首先介绍了LLM（如ChatGPT、Claude、Gemini、Llama等）的基本概念，并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调，尽管学术界常关注架构与算法，但业界实践更侧重于数据、评估和系统的重要性，因此本次讲座将重点讨论后者。 LLM的构建通常分为预训练（Pretraining）和后训练（Post-training）两个阶段。预训练阶段的目标是进行通用语言建模，让模型学习并理解大规模文本数据（如整个互联网的内容）。此阶段的核心任务是语言建模，即模型学习预测一个词元（token）序列出现的概率。当前主流的LLM采用自回归（Autoregressive）语言模型。这类模型通过概率的链式法则，将整个序列的联合概率分解为一系列条件概率的乘积，即在给定前面所有词元的条件下，预测下一个词元出现的概率。其工作流程大致为：首先对输入文本进行词元化（tokenization），将词或子词转换为唯一的ID；然后将这些词元ID输入模型（通常是Transformer架构，但讲座未深入探讨架构细节）；模型会输出一个在整个词汇表上的概率分布，表示下一个最可能的词元。在训练过程中，模型通过比较预测的词元分布与实际出现的词元（通常使用独热编码表示），并利用交叉熵损失函数（Cross-entropy loss）来调整模型参数，以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要，因为它定义了模型的词汇量大小，直接影响模型的输出维度。评估预训练模型的方法包括困惑度（Perplexity）和学术基准测试（如MMLU）。

大型语言模型 LLMs 预训练后训练 RLHF DPO 数据处理模型评估规模法则系统优化词元化

已摘要阅读时间：10 分钟（3289 个字） 3 summary versions

2024-04-12 | 3Blue1Brown | Transformers (how LLMs work) explained visually

2025-05-14 10:31

该转录文本主要解释了大型语言模型（如GPT）背后的核心技术——Transformer架构。GPT代表“生成式预训练Transformer”，意味着它能生成新内容，通过大量数据预先训练，而Transformer是其关键的神经网络结构。 Transformer的核心功能是预测序列中的下一个“词元”（token，通常是单词或词语的一部分）。通过不断地：接收一段文本、预测下一个最可能的词元、从概率分布中抽样选择一个词元、将其追加到文本末尾，并重复此过程，模型能够生成较长的连贯内容。其内部工作流程大致如下： 1. **输入处理与词元化**：输入文本被分解为词元。 2. **词嵌入**：每个词元被转换为一个数字向量（词嵌入），该向量旨在编码词元的含义。 3. **注意力机制（Attention Block）**：词元向量序列通过注意力模块。在此模块中，不同词元的向量会相互“交流”，传递信息并更新各自的向量表示，从而使模型能够理解词语在特定上下文中的含义（例如，“model”在“机器学习模型”和“时尚模特”中的不同含义）。 4. **多层感知机（Multilayer Perceptron / Feed Forward Layer）**：经过注意力机制处理后的向量会并行通过多层感知机进行进一步的非线性变换，每个向量独立处理。 5. **重复与输出**：上述注意力模块和多层感知机模块的组合可以堆叠多层。最终，模型基于最后一个词元的处理结果，生成一个关于所有可能出现的下一个词元的概率分布。除了文本生成，Transformer架构还广泛应用于机器翻译（其最初的提出场景）、文本到图像生成（如DALL-E、Midjourney）、语音识别和语音合成等多种任务。在构建聊天机器人时，通常会设定一个系统提示（如定义AI助手的角色），然后将用户输入作为对话的开端，让模型预测并生成AI助手的回复。该解释将Transformer置于机器学习的更广阔背景下，强调其并非通过显式编程规则来执行任务，而是通过在一个具有大量可调参数（例如GPT-3拥有1750亿个参数）的灵活结构上，利用海量数据进行训练，从而学习模式和行为。

大型语言模型 Transformer架构生成式AI 注意力机制词嵌入文本生成深度学习 GPT模型词元化概率分布

已摘要阅读时间：12 分钟（3911 个字） 2 summary versions

音频媒体文件