音频媒体文件

清除
标签搜索结果 for "词元化"
2024 | Stanford CS229 I Machine Learning I Building Large Language Models (LLMs)
2025-05-14 13:38

该讲座概述了大型语言模型(LLM)的构建过程。演讲者首先介绍了LLM(如ChatGPT、Claude、Gemini、Llama等)的基本概念,并指出构建LLM的关键要素包括模型架构、训练损失与算法、数据、评估方法以及系统组件。演讲者强调,尽管学术界常关注架构与算法,但业界实践更侧重于数据、评估和系统的重要性,因此本次讲座将重点讨论后者。 LLM的构建通常分为预训练(Pretraining)和后训练(Post-training)两个阶段。预训练阶段的目标是进行通用语言建模,让模型学习并理解大规模文本数据(如整个互联网的内容)。此阶段的核心任务是语言建模,即模型学习预测一个词元(token)序列出现的概率。 当前主流的LLM采用自回归(Autoregressive)语言模型。这类模型通过概率的链式法则,将整个序列的联合概率分解为一系列条件概率的乘积,即在给定前面所有词元的条件下,预测下一个词元出现的概率。其工作流程大致为:首先对输入文本进行词元化(tokenization),将词或子词转换为唯一的ID;然后将这些词元ID输入模型(通常是Transformer架构,但讲座未深入探讨架构细节);模型会输出一个在整个词汇表上的概率分布,表示下一个最可能的词元。在训练过程中,模型通过比较预测的词元分布与实际出现的词元(通常使用独热编码表示),并利用交叉熵损失函数(Cross-entropy loss)来调整模型参数,以最大化正确预测下一个词元的概率。词元化的选择对模型至关重要,因为它定义了模型的词汇量大小,直接影响模型的输出维度。评估预训练模型的方法包括困惑度(Perplexity)和学术基准测试(如MMLU)。

大型语言模型 LLMs 预训练 后训练 RLHF DPO 数据处理 模型评估 规模法则 系统优化 词元化
已摘要 阅读时间:10 分钟(3289 个字) 3 summary versions
2024-04-12 | 3Blue1Brown | Transformers (how LLMs work) explained visually
2025-05-14 10:31

该转录文本主要解释了大型语言模型(如GPT)背后的核心技术——Transformer架构。GPT代表“生成式预训练Transformer”,意味着它能生成新内容,通过大量数据预先训练,而Transformer是其关键的神经网络结构。 Transformer的核心功能是预测序列中的下一个“词元”(token,通常是单词或词语的一部分)。通过不断地:接收一段文本、预测下一个最可能的词元、从概率分布中抽样选择一个词元、将其追加到文本末尾,并重复此过程,模型能够生成较长的连贯内容。 其内部工作流程大致如下: 1. **输入处理与词元化**:输入文本被分解为词元。 2. **词嵌入**:每个词元被转换为一个数字向量(词嵌入),该向量旨在编码词元的含义。 3. **注意力机制(Attention Block)**:词元向量序列通过注意力模块。在此模块中,不同词元的向量会相互“交流”,传递信息并更新各自的向量表示,从而使模型能够理解词语在特定上下文中的含义(例如,“model”在“机器学习模型”和“时尚模特”中的不同含义)。 4. **多层感知机(Multilayer Perceptron / Feed Forward Layer)**:经过注意力机制处理后的向量会并行通过多层感知机进行进一步的非线性变换,每个向量独立处理。 5. **重复与输出**:上述注意力模块和多层感知机模块的组合可以堆叠多层。最终,模型基于最后一个词元的处理结果,生成一个关于所有可能出现的下一个词元的概率分布。 除了文本生成,Transformer架构还广泛应用于机器翻译(其最初的提出场景)、文本到图像生成(如DALL-E、Midjourney)、语音识别和语音合成等多种任务。在构建聊天机器人时,通常会设定一个系统提示(如定义AI助手的角色),然后将用户输入作为对话的开端,让模型预测并生成AI助手的回复。 该解释将Transformer置于机器学习的更广阔背景下,强调其并非通过显式编程规则来执行任务,而是通过在一个具有大量可调参数(例如GPT-3拥有1750亿个参数)的灵活结构上,利用海量数据进行训练,从而学习模式和行为。

大型语言模型 Transformer架构 生成式AI 注意力机制 词嵌入 文本生成 深度学习 GPT模型 词元化 概率分布
已摘要 阅读时间:12 分钟(3911 个字) 2 summary versions