2025-06-03 | AI Engineer | The Future of Qwen: A Generalist Agent Model — Junyang Lin, Alibaba Qwen

Detailed Summary 摘要

生成：2025-06-10 12:53

摘要详情

音频文件: 2025-06-03 | AI Engineer | The Future of Qwen: A Generalist Agent Model — Junyang Lin, Alibaba Qwen
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-06-05
温度: 0.5
创建时间: 2025-06-10 12:53:15

摘要内容

概览/核心摘要 (Executive Summary)

阿里巴巴Qwen团队的Junyang Lin在AI Engineer World Fair 2025上分享了Qwen系列大模型的最新进展及未来展望。Qwen致力于构建通用智能体模型（Generalist Agent Model）。近期发布的Qwen3系列大语言模型，通过强化学习（RL）显著提升了在数学和编码等推理任务上的性能，例如其320亿参数模型在AME 2024上性能从65%提升至80%。Qwen3引入了创新的“混合思维模式”，允许模型在单一模型中结合“思考”和“非思考”行为，并可通过提示或超参数控制。同时，“动态思维预算”特性使得模型性能随思维长度增加而提升。Qwen3支持超过119种语言和方言，大幅扩展了其全球适用性，并增强了Agent和编码能力，特别优化了对MCP（[不确定，原文提及mcp，具体指代不明确]）的支持。

在多模态领域，Qwen2.5-VL在视觉语言理解基准上表现优异，并探索了思维能力。更进一步的Qwen2.5-Omni模型（70亿参数）实现了文本、视觉（图像、视频）、音频三种模态的输入，以及文本和音频的输出，并在音频任务和部分视觉语言理解任务上超越了专门的视觉语言模型，但语言任务性能有待恢复。

Qwen团队坚持开源，已开源多种尺寸的稠密模型和MoE模型，并提供多种量化版本。产品层面，QwenChat提供了Web Dev（通过简单提示生成网站）和Deep Research（生成深度研究报告）等创新功能。

未来，Qwen将聚焦于：1) 改进预训练（数据质量、多模态数据、合成数据、新训练方法如RL预训练）；2) 改变扩展定律，侧重强化学习中的计算扩展和基于环境反馈的长程推理；3) 扩展上下文长度（目标今年内多数模型达100万token，并向1000万token及“无限上下文”迈进）；4) 扩展模态能力，统一理解与生成（如高质量图像/视频生成）。核心愿景是从“训练模型”转向“训练智能体”（Training Agents），强调模型与环境的交互和持续学习。

Qwen 系列模型概览与愿景

发言人： Junyang Lin (来自Qwen团队，阿里巴巴集团)
核心目标： 构建通用智能体模型 (Generalist Agent Model) 和通用模型 (Generalist Model)。
重要链接：
- 产品与聊天界面：chat.qwen.ai (QwenChat)，支持最新模型、多模态交互（图像、视频上传）、Omni模型（语音、视频聊天）及Web Dev、Deep Research等功能。
- 技术博客：qwen.github.io，发布最新技术细节。
- 开源代码：GitHub
- 模型权重：Hugging Face
开源理念： 团队持续进行开源，认为开源能带来有价值的反馈，促进模型改进，并鼓励团队构建更好的模型。

Qwen 大语言模型最新进展：Qwen3

Qwen团队在春节前发布了指令微调模型 Qwen2.5 Max，其性能在多个基准测试中与当时的顶尖模型（如GPT-3.5, GPT-4, [dcb V3 - 不确定，可能是Claude 3]）相当。团队认为大语言模型的潜力不止于指令微调，强化学习（RL）能使其更智能。

强化学习的应用：
- RL显著提升了模型在推理任务（如数学和编码）上的性能。
- 以 AME 2024 基准为例，一个320亿参数的模型，性能从约65%通过RL提升至80%。
- 在 Chatbot Arena 上也表现出与更大模型的竞争力，长时间位列前15名。

近期，团队结合研发成果发布了下一代大语言模型 Qwen3。

模型规格与性能亮点

Qwen3发布了多种尺寸的稠密模型（Dense Models）和混合专家模型（MoE Models）：

旗舰MoE模型 (2350亿参数)：
- 总参数量2350亿，但每次推理仅激活220亿参数。
- 兼具效率与效果，性能与 [o three mini - 不确定，推测为Llama 3 Mini] 相当，略逊于 Gemini 1.5 Pro。
最大稠密模型： 性能同样具有竞争力。
快速MoE模型 (300亿参数)：
- 总参数量300亿，仅激活30亿参数。
- 在某些任务上，其性能甚至超过了 Qwen2的320亿参数稠密模型。
小型稠密模型 (40亿参数)：
- 通过蒸馏技术（从大模型向小模型迁移知识）构建。
- 具备思维能力，其性能甚至能与上一代旗舰模型 Qwen2.5 72B 竞争。
- 适合移动端部署。

核心特性：混合思维模式 (Hybrid Thinking Mode)

定义： Qwen3首次在开源社区将“思考模式”（Thinking Mode）和“非思考模式”（Non-thinking Mode）集成到单一模型中。
- 思考模式： 在给出详细答案前，模型会进行自我反思、探索可能性，类似Zero One和DeepMind的某些模型。
- 非思考模式： 传统的指令微调模型行为，如聊天机器人，直接、近乎即时地给出答案，无明显思考延迟。
控制方式： 用户可以通过提示（prompts）或超参数（hyperparameters）来控制模型的行为模式。

核心特性：动态思维预算 (Dynamic Thinking Budget)

定义： “思维预算”指模型思考时允许的最大token数量。
机制：
- 如果任务思考完成所需的token数少于预算（如8000 tokens < 32000 tokens预算），则正常完成思考并输出。
- 如果所需token数超出预算（如需8000 tokens，但预算仅4000 tokens），则思考过程会在达到预算上限时被截断。
性能影响：
- 模型性能随思维预算的增加而显著提升。
- 以 AME 2024 为例，在思维预算较小时（如4000 tokens），模型得分仅略高于40%；当思维预算增加到32000 tokens时，得分可超过80%。
应用价值： 用户可以根据任务需求（如特定准确率要求）调整思维预算，以在性能和成本（token消耗）之间取得平衡。例如，若8000 tokens的思维预算已能达到95%的准确率，则无需浪费更多token。

核心特性：多语言能力增强

语言支持数量： Qwen3支持超过 119种语言和方言，而Qwen2.5仅支持29种。
意义： 大幅提升了模型在全球范围内的应用潜力，使更多非英语用户能在其领域和语言中使用大语言模型。

核心特性：Agent 与编码能力提升

Agent能力： 增强了模型使用工具（tool use）和函数调用（function calls）的能力。
- 模型能够在思考过程中调用工具，获取环境反馈，并继续思考，这对于推理时扩展（inference time scaling）非常有利。
- 示例：模型可以接入文件系统，按指令整理桌面文件，展示了其思考、选择工具、执行、获取反馈、继续思考直至完成任务的过程。
编码能力： 专门增强了对 MCP ([不确定，原文提及mcp，具体指代不明确]) 的支持，该技术近期非常流行。
目标： 使模型不仅仅是聊天机器人，更能成为在工作和生活中高效的生产力工具 (Productive Agent)。

Qwen 多模态模型进展

除了大语言模型，Qwen团队也大力投入多模态模型的研发。

视觉语言模型 (Qwen2.5-VL)

发布时间： 2025年1月。
性能： 在多个视觉语言理解基准测试中（如MME, MathVista, 以及多种VQA基准）取得了非常有竞争力的表现。
思维能力探索： 团队也为视觉语言模型构建了思维能力（qbq），并观察到随最大思维长度（等同于思维预算）增加，模型在推理任务（尤其是数学）上的性能提升，表现出与语言模型相似的特性。

全方位模型 (Qwen2.5-Omni)

定位： 接受多模态输入，并能生成多模态输出（文本、视觉、音频）的“全能模型”。
当前版本 (70亿参数，基于LLM)：
- 输入模态： 文本、视觉（图像、视频）、音频。
- 输出模态： 文本、音频。
- 未来展望： 未来可能生成高质量图像和视频。
应用场景： 可用于语音聊天、视频聊天和文本聊天。
性能表现：
- 在同等规模（70亿参数）模型中，音频任务上达到SOTA（State-of-the-Art）水平。
- 意外惊喜： 在视觉语言理解任务上，性能甚至优于专门的 Qwen2.5-VL 70亿参数模型。
- 待改进之处： 语言任务（尤其是智能和Agent任务）的性能有所下降，团队相信通过改进数据质量和训练方法可以恢复。

开源理念与生态建设

开源范围： Qwen团队已开源了多种尺寸的模型，包括：
- 两个MoE模型：一个小型（总参数300亿，激活30亿），一个大型（总参数2350亿，激活220亿）。
- 六个稠密模型，从小到40亿参数（可用于移动设备部署）到320亿参数（性能强大，适合本地部署）。
未来趋势： 团队认为MoE模型是未来趋势，后续将发布更多MoE模型，并期待开源社区（如第三方框架）提供更好的支持。
模型系列： 开源社区中拥有众多受欢迎的Qwen模型，包括LLM、Coder系列（Qwen2.5 Coder被广泛用于本地开发）。
预告： 团队正在构建 Qwen3 Coder 系列。
多尺寸策略： 坚信每种尺寸的模型都有其用户群体，从极小的0.6B模型到235B的MoE模型均有大量用户。
量化与格式支持： 提供多种格式的量化模型，如GGUF, GBQ, AWQ, 以及针对苹果设备的Mox。
许可证： 大部分模型采用 Apache 2.0 许可证，允许自由使用和商业化，无需申请许可。
生态兼容性： Qwen模型已得到大量（可能大部分）相关第三方框架和API平台的支持。

Qwen 产品化应用示例

Qwen团队也在构建产品，方便用户与模型交互，并开发Agent应用。

Web Dev

功能： 在QwenChat中，用户通过输入简单提示（如“创建一个推特网站”或“创建一个防晒霜产品介绍网站”），即可生成网站代码及预览效果。
特点： 用户可以部署生成的网站并分享URL。
应用场景： 快速创建产品介绍页、社交媒体卡片等。发言人表示该功能使其更具创造力，并帮助其向全球展示成果。

Deep Research

功能： 用户提出研究主题（如医疗健康行业、人工智能），模型会制定研究计划，分步搜索信息，撰写各部分内容，并最终生成一份综合报告（可下载PDF）。
持续改进： 团队正通过强化学习微调专门用于Deep Research的模型以提升报告质量。
挑战与机遇： 尽管初期进行此类强化学习难度较大，但一旦构建出优质模型，将极大提升用户在工作和生活中的生产力。

未来发展方向与展望

Junyang Lin指出，要实现AGI、构建优秀的基座模型和Agent，仍有许多工作要做。

预训练的持续优化 (Improving Pre-training)：
- 团队认为预训练仍有巨大提升空间。
- 数据层面： 存在大量优质数据未被纳入，许多数据未被充分清洗。
- 多模态数据： 利用多模态数据增强模型在不同领域、不同任务上的能力。
- 合成数据： 将会应用。
- 训练方法创新： 可能采用与传统“下一个token预测”不同的预训练方法，例如在预训练阶段引入强化学习。
扩展定律的演变 (Changes in Scaling Laws)：
- 过去主要关注模型尺寸和预训练数据的扩展。
- 现在需要关注强化学习中的计算扩展 (scale the compute in reinforcement learning)。
- 重点研究基于环境反馈的长程推理 (long horizon reasoning with the environment feedback)。模型通过与环境交互、持续思考，在推理时扩展能力，变得更智能。
上下文长度的扩展 (Scaling Context)：
- 模型将生成非常长的上下文，并处理非常长的输入上下文，尤其是在有记忆的情况下。
- 目标： 今年内使大部分模型的上下文长度至少达到 100万tokens，并逐步向 1000万tokens 乃至 “无限上下文” (Internet context) 迈进。
模态能力的扩展 (Scaling Modalities)：
- 扩展模态本身可能不直接增加“智能”，但能使模型更有能力、更具生产力。
- 视觉语言理解是关键，例如构建GUI Agent，使其能像人一样使用计算机。
- 在输入和输出两方面都存在巨大的模态扩展空间。
- 统一理解与生成： 例如，同时进行图像理解和图像生成，类似GPT-4o生成有趣高质量图像的能力，也是Qwen的目标。

结论

Junyang Lin总结，Qwen团队未来一两年的核心方向是 “从训练模型 (training models) 转向训练智能体 (training agents)”。这意味着不仅要通过预训练进行扩展，更要通过强化学习（尤其是与环境交互的RL）进行扩展，实际上是在训练能够与环境交互、持续学习的智能体。他认为，“我们现在正处于智能体的时代 (era of agents)”。

返回音频媒体