音频媒体文件

清除
标签搜索结果 for "工具使用"
2025-04-24 | Anthropic | Lessons on AI agents from Claude Plays Pokemon
2025-06-11 14:50

AI代理如何通过玩《宝可梦》测试复杂任务处理能力

AI智能体 人工智能 Anthropic Claude 模型评测 长期记忆 游戏AI 工具使用 规划与推理 宝可梦
已摘要 阅读时间:8 分钟(2672 个字) 2 summary versions
2025-02-05 | Agentic AI: A Progression of Language Model Usage
2025-06-06 20:18

Agentic AI 语言模型的应用与设计模式解析

智能体AI 大语言模型 检索增强生成 (RAG) 工具使用 提示工程 ReAct框架 多智能体协作 模型幻觉 AI应用开发 反思模式 (Reflection)
已摘要 阅读时间:8 分钟(2680 个字) 1 summary version
Andrej Karpathy | Deep Dive into LLMs like ChatGPT
2025-05-17 22:01

Andrej Karpathy的视频旨在向普通观众介绍大型语言模型(LLM)如ChatGPT的构建和运作原理。构建LLM的首个关键阶段是“预训练”,此阶段始于从互联网收集海量、高质量且多样化的文本数据,例如基于Common Crawl等数据源(已索引数十亿网页)构建的FineWeb数据集。原始数据需经过多重处理,包括URL过滤(排除恶意、垃圾等不良网站)、文本提取(从HTML中分离出有效内容)、语言过滤(如FineWeb侧重于英文内容)、数据去重以及个人身份信息(PII)移除,最终形成一个庞大的、经过清洗的文本语料库(例如FineWeb数据集约为44TB)。在将这些文本输入神经网络之前,必须进行“分词”(tokenization)处理,即将文本转换为由预定义词汇表中的符号组成的序列。此步骤是必要的,因为神经网络需要固定格式的输入,并且旨在优化序列长度(一个宝贵的计算资源),通过平衡词汇表大小和生成的符号序列长度来实现。

大型语言模型 ChatGPT 预训练 微调 强化学习 分词 Transformer架构 幻觉 工具使用 Andrej Karpathy 多模态 上下文窗口
已摘要 阅读时间:21 分钟(7246 个字) 3 summary versions