音频媒体文件

清除
标签搜索结果 for "强化学习"
2025-06-03 | AI Engineer | The Future of Qwen: A Generalist Agent Model — Junyang Lin, Alibaba Qwen
2025-06-10 12:49

Qwen3发布:全新混合思维模式与多模态能力升级

人工智能 Qwen大模型 Qwen3 通用智能体模型 强化学习 多模态大模型 混合思维模式 动态思维预算 MoE模型 开源大模型 上下文窗口扩展 多语言支持
已摘要 阅读时间:9 分钟(3127 个字) 2 summary versions
BiliBili | IBM RethinkFun | 零基础学习强化学习算法:PPO
2025-06-01 22:14

零基础入门强化学习与PPO算法解析

强化学习 PPO算法 策略梯度 Actor-Critic 优势函数 GAE 重要性采样 离策略学习 人工智能 强化学习入门
已摘要 阅读时间:9 分钟(2807 个字) 1 summary version
2025-05-13 | Stanford CS25: V5 I The Advent of AGI, Div Garg
2025-05-18 15:20

Div Garg,AGI Inc. 的创始人兼首席执行官,在演讲中探讨了人工智能代理(AI agents)及其通往通用人工智能(AGI)的路径。他指出,AI代理是能够感知、推理并在开放环境中行动的系统,代表着迈向AGI的第一步,有望彻底改变人机交互方式。然而,实现AGI面临诸多挑战,包括推理脆弱、目标漂移、记忆浅薄以及不确定性下的校准问题。解决这些问题不仅需要模型改进,更需要重新思考智能系统的设计、评估和部署方式。 Garg提出了一种受人类启发的代理设计方法,涵盖了新的代理评估标准、在线强化学习训练方法以及代理间通信(如MCP、A2A和Agent Protocol)。他详细阐述了AI代理的架构,包括短期/长期记忆、工具使用能力、高级规划(如反思、自我批评和任务分解)以及执行行动的能力。他通过一个AI代理成功通过加州DMV驾驶考试的案例,展示了代理在现实世界中的应用潜力。 Garg强调,构建AI代理的原因在于它们在数字世界中比人类更高效,能够解锁更高的生产力,并实现更复杂的系统。特别地,开发类人代理至关重要,因为它们能够像人类一样操作为人类设计的计算机界面(如键盘和鼠标),从而实现更直接和广泛的应用。

通用人工智能 AI 代理 强化学习 代理架构 代理评估 代理通信 可靠性 个性化 多代理系统 数字世界交互
已摘要 阅读时间:14 分钟(4739 个字) 2 summary versions
Andrej Karpathy | Deep Dive into LLMs like ChatGPT
2025-05-17 22:01

Andrej Karpathy的视频旨在向普通观众介绍大型语言模型(LLM)如ChatGPT的构建和运作原理。构建LLM的首个关键阶段是“预训练”,此阶段始于从互联网收集海量、高质量且多样化的文本数据,例如基于Common Crawl等数据源(已索引数十亿网页)构建的FineWeb数据集。原始数据需经过多重处理,包括URL过滤(排除恶意、垃圾等不良网站)、文本提取(从HTML中分离出有效内容)、语言过滤(如FineWeb侧重于英文内容)、数据去重以及个人身份信息(PII)移除,最终形成一个庞大的、经过清洗的文本语料库(例如FineWeb数据集约为44TB)。在将这些文本输入神经网络之前,必须进行“分词”(tokenization)处理,即将文本转换为由预定义词汇表中的符号组成的序列。此步骤是必要的,因为神经网络需要固定格式的输入,并且旨在优化序列长度(一个宝贵的计算资源),通过平衡词汇表大小和生成的符号序列长度来实现。

大型语言模型 ChatGPT 预训练 微调 强化学习 分词 Transformer架构 幻觉 工具使用 Andrej Karpathy 多模态 上下文窗口
已摘要 阅读时间:21 分钟(7246 个字) 3 summary versions
Stanford CS224N | 2023 | Lecture 10 - Prompting, Reinforcement Learning from Human Feedback
2025-05-16 21:06

该讲座由斯坦福大学的Jesse Mu博士主讲,核心内容是大型语言模型(LLM)中的提示(prompting)、指令微调(instruction fine-tuning)以及从人类反馈中强化学习(RLHF),这些技术是驱动近期如ChatGPT等聊天机器人发展的关键。 讲座首先提及了课程的一些安排,包括项目提案截止、作业提交以及课程反馈调查。 随后,讲座深入探讨了大型语言模型的发展趋势:模型规模持续扩大,训练数据量不断增加。这使得LLM不仅能预测文本序列,还开始展现出对世界更深层次的理解,例如学习句法、共指消解、情感分析,甚至发展出初步的“世界模型”能力。一个例子表明,LLM能根据输入文本中描述的人物背景(如是否为物理学家)来推断其对物理现象(如真空环境下保龄球和树叶同时落地)的认知。此外,LLM在处理百科知识、数学推理、代码生成乃至医学文本方面也显示出潜力。 讲座的主要目标是阐释如何将仅能预测下一个词的基础语言模型,逐步转化为能执行多样化任务的智能助手,类似ChatGPT。为此,讲座计划分阶段介绍三种技术路径: 1. 零样本(zero-shot)和少样本(few-shot)学习; 2. 指令微调; 3. 从人类反馈中强化学习(RLHF)。 讲座接着详细介绍了零样本和少样本学习。回顾了早期的GPT模型(2018年,1.17亿参数),它是一个仅解码器的语言模型,通过预训练来提升下游任务的性能。随后发布的GPT-2(2019年,15亿参数)在模型规模和训练数据(40GB的WebText数据集,通过筛选Reddit高质量链接构建)上都有显著提升。GPT-2的重要贡献在于揭示了语言模型具备“无监督多任务学习”的能力,特别是零样本学习。这意味着模型无需针对特定任务进行额外的梯度更新或微调,仅通过设计合适的输入提示(将任务转化为序列预测问题),就能执行多种未曾明确训练过的任务。例如,通过提供上下文和问题,让模型续写答案来进行问答;或者通过比较不同句子序列的生成概率来解决需要世界知识的代词消歧任务(如Winograd模式挑战)。GPT-2在当时仅凭零样本学习就在多个语言建模基准测试中取得了领先水平,且无需针对特定任务进行微调。

大型语言模型 自然语言处理 提示工程 指令微调 RLHF 强化学习 零样本学习 少样本学习 链式思维 AI对齐 奖励模型
已摘要 阅读时间:14 分钟(4761 个字) 1 summary version