音频媒体列表 - StreamSparkAI

音频媒体文件

标签搜索结果 for "幻觉"

Andrej Karpathy | Deep Dive into LLMs like ChatGPT

2025-05-17 22:01

Andrej Karpathy的视频旨在向普通观众介绍大型语言模型（LLM）如ChatGPT的构建和运作原理。构建LLM的首个关键阶段是“预训练”，此阶段始于从互联网收集海量、高质量且多样化的文本数据，例如基于Common Crawl等数据源（已索引数十亿网页）构建的FineWeb数据集。原始数据需经过多重处理，包括URL过滤（排除恶意、垃圾等不良网站）、文本提取（从HTML中分离出有效内容）、语言过滤（如FineWeb侧重于英文内容）、数据去重以及个人身份信息（PII）移除，最终形成一个庞大的、经过清洗的文本语料库（例如FineWeb数据集约为44TB）。在将这些文本输入神经网络之前，必须进行“分词”（tokenization）处理，即将文本转换为由预定义词汇表中的符号组成的序列。此步骤是必要的，因为神经网络需要固定格式的输入，并且旨在优化序列长度（一个宝贵的计算资源），通过平衡词汇表大小和生成的符号序列长度来实现。

大型语言模型 ChatGPT 预训练微调强化学习分词 Transformer架构幻觉工具使用 Andrej Karpathy 多模态上下文窗口

已摘要阅读时间：21 分钟（7246 个字） 3 summary versions