音频媒体文件

清除
标签搜索结果 for "ChatGPT"
Andrej Karpathy | Deep Dive into LLMs like ChatGPT
2025-05-17 22:01

Andrej Karpathy的视频旨在向普通观众介绍大型语言模型(LLM)如ChatGPT的构建和运作原理。构建LLM的首个关键阶段是“预训练”,此阶段始于从互联网收集海量、高质量且多样化的文本数据,例如基于Common Crawl等数据源(已索引数十亿网页)构建的FineWeb数据集。原始数据需经过多重处理,包括URL过滤(排除恶意、垃圾等不良网站)、文本提取(从HTML中分离出有效内容)、语言过滤(如FineWeb侧重于英文内容)、数据去重以及个人身份信息(PII)移除,最终形成一个庞大的、经过清洗的文本语料库(例如FineWeb数据集约为44TB)。在将这些文本输入神经网络之前,必须进行“分词”(tokenization)处理,即将文本转换为由预定义词汇表中的符号组成的序列。此步骤是必要的,因为神经网络需要固定格式的输入,并且旨在优化序列长度(一个宝贵的计算资源),通过平衡词汇表大小和生成的符号序列长度来实现。

大型语言模型 ChatGPT 预训练 微调 强化学习 分词 Transformer架构 幻觉 工具使用 Andrej Karpathy 多模态 上下文窗口
已摘要 阅读时间:21 分钟(7246 个字) 3 summary versions
Stanford CS224N: NLP with Deep Learning | Spring 2024 | Lecture 10 - Post-training by Archit Sharma
2025-05-15 22:42

斯坦福大学博士生 Archit Sharma 介绍了大型语言模型的后训练(post-training)过程,旨在阐释如何从基础的预训练模型发展到如 ChatGPT 这样强大的模型。 他首先强调了“规模法则”(scaling laws)的重要性:随着模型参数量(计算量从10^24浮点运算增至超过10^26)和训练数据量(从2022年的1.4万亿词元增至2024年Llama 3的约15万亿词元)的持续增长,模型能力不断提升,但同时也带来了巨大的成本投入。 预训练不仅让模型学习事实知识、语法、语义和多种语言,更重要的是,模型开始展现出理解人类信念、行为和意图的深层能力。例如,模型能根据情境中人物的背景知识预测其不同反应,或在数学、编程(如Copilot辅助编码)、医学(初步诊断,但不建议作为医疗建议)等领域展现应用潜力。尽管预训练任务本质上是预测下一个词元,但模型正演变为通用的多任务助手。 讲座的核心内容将依次探讨: 1. 零样本(Zero-Shot)和少样本(Few-Shot)上下文学习(In-Context Learning)。 2. 指令微调(Instruction fine-tuning)。 3. 基于人类偏好的优化方法(如DPO和RLHF)。 4. 探讨当前技术的局限与未来发展方向。 以GPT系列模型为例,从GPT-1到GPT-2,通过扩大模型规模和数据量,GPT-2展现了零样本学习能力,即模型无需针对特定任务进行额外训练,仅通过巧妙设计提示(prompting),就能执行如文本摘要、问答等多种任务。

大型语言模型 后训练 指令精调 RLHF DPO 上下文学习 零样本学习 少样本学习 提示工程 AI对齐 规模法则 ChatGPT
已摘要 阅读时间:12 分钟(3939 个字) 2 summary versions