Andrej Karpathy | Deep Dive into LLMs like ChatGPT
2025-05-17 22:01
Andrej Karpathy的视频旨在向普通观众介绍大型语言模型(LLM)如ChatGPT的构建和运作原理。构建LLM的首个关键阶段是“预训练”,此阶段始于从互联网收集海量、高质量且多样化的文本数据,例如基于Common Crawl等数据源(已索引数十亿网页)构建的FineWeb数据集。原始数据需经过多重处理,包括URL过滤(排除恶意、垃圾等不良网站)、文本提取(从HTML中分离出有效内容)、语言过滤(如FineWeb侧重于英文内容)、数据去重以及个人身份信息(PII)移除,最终形成一个庞大的、经过清洗的文本语料库(例如FineWeb数据集约为44TB)。在将这些文本输入神经网络之前,必须进行“分词”(tokenization)处理,即将文本转换为由预定义词汇表中的符号组成的序列。此步骤是必要的,因为神经网络需要固定格式的输入,并且旨在优化序列长度(一个宝贵的计算资源),通过平衡词汇表大小和生成的符号序列长度来实现。
大型语言模型
ChatGPT
预训练
微调
强化学习
分词
Transformer架构
幻觉
工具使用
Andrej Karpathy
多模态
上下文窗口
已摘要
阅读时间:21 分钟(7246 个字)
3 summary versions