详细摘要 摘要

生成:2025-06-04 11:05

摘要详情

音频文件
Qwen3 30B-A3B MoE — In-Depth LOCAL Testing! (Think & No-Think)
摘要类型
详细摘要
LLM 提供商
openai
LLM 模型
gemini-2.5-pro-preview-05-06
已创建
2025-06-04 11:05:13

概览/核心摘要 (Executive Summary)

本内容总结了 speaker 1 对 Qwen3 30B-A3B MoE (Mixture of Experts) 模型进行的本地深度测试。该模型以其声称的“30亿激活参数即可超越拥有十倍激活参数(320亿)的 Qwen QW 32B 稠密模型”的卓越性能引起了测试者的浓厚兴趣。测试在 LM Studio 中进行,使用了 Q8 量化版本(约 33GB),并强调了根据 Hugging Face 官方指南正确设置不同模式(“思考模式”与“无思考模式”)下采样参数的重要性。

测试涵盖了代码生成(Python 游戏,包括有无 Pygame 依赖以及带声音的版本)、HTML 网页生成(“Steve's PC Repair”网站)、安全与伦理问题回应(WEP 路由器破解、道德黑客)以及创意性任务(VC 项目路演及技术原型构想)。结果显示,该模型在多种任务中表现出色,生成速度快(例如,在“思考模式”下初始测试达到 83.4 tokens/秒),代码生成富有创意且功能基本可用,HTML 网页结构合理且包含相关图像。模型在“无思考模式”下响应更快,并且能够根据上下文调整其行为(如在道德黑客请求中提供有用信息)。测试者对模型的整体性能、效率和“趣味性”表示印象深刻,认为其 MoE 架构在性能和资源需求之间取得了良好平衡。视频最后,测试者预告了将对参数量更大的 235B Qwen3 MoE 模型进行测试。

模型介绍与测试背景

  • 核心关注点: Qwen3 MoE 模型家族,特别是 Qwen3 30B-A3B MoE 模型
    • 该模型在运行时仅激活 30亿 (3B) 参数
    • 一个关键的吸引点是官方宣称:"the smaller of the two moe models, the quen 330B, A three b, outcompetes qw q 32b, which has ten times more activated parameters." 这意味着该 3B 激活参数的 MoE 模型性能优于 320亿 (32B) 参数的稠密模型 Qwen QW 32B,后者本身也是一款备受好评的模型。
  • 测试动机: 验证上述性能声明,并深入体验该 MoE 模型的实际表现。
  • 未来计划: Speaker 1 提及正在下载更大的 235B 参数 MoE 模型(每次请求激活 22B 参数),并计划为其制作专门的测试视频。

测试环境与参数设置

  • 测试平台: LM Studio。
  • 模型版本: Speaker 1 下载了 Q8 量化版本,大小约为 33GB
    • Speaker 1 使用的硬件推测为拥有两块 3090 Ti 显卡(原文口误为 "200 3090 tis",根据上下文及本地测试环境判断应为笔误或转录错误,指两块高端显卡),因此能够将 Q8 模型完整加载到 VRAM 中运行。
  • 采样参数的重要性:
    • Speaker 1 强调,根据 Hugging Face 页面上针对该特定模型的“最佳实践”部分设置正确的采样参数至关重要。
    • “思考模式”(Thinking Mode) 和“无思考模式”(Non-thinking Mode) 拥有不同的推荐参数
  • “思考模式”下的采样参数:
    • Temperature: 0.6 (从默认的 0.8下调)
    • Top P: 0.95 (与默认一致)
    • Top K: 20 (从默认的 40下调)
    • Min P: 0
  • 初始速度测试: 在正确设置参数后,模型首次响应速度为 83.4 tokens/秒
    • Speaker 1 指出,对于一个标称 30B 的模型而言,这个速度非常快,这得益于其 MoE 架构,每次仅激活 3B 参数。

“思考模式” (Thinking Mode) 测试表现

  • Python 游戏开发 (复古合成波风格, 无 Pygame 依赖):
    • 模型首先解析了“synth wave game”的含义,理解了霓虹色彩、未来元素等。
    • 在“无外部依赖”的约束下,模型创造性地设计了一个基于文本的控制方式:使用 A/D 键移动,S 键射击。
    • Speaker 1 对此评价道:"this is creatively impressive... extremely creative and well done considering the rather robust constraints that I put on it."
  • Python 游戏开发 (复古合成波风格, 使用 Pygame):
    • 模型首先提示需要安装 pygame 依赖。
    • 生成速度约为 75 tokens/秒
    • 游戏使用 A/D 键移动,按键时长影响射击光束长度。
    • 游戏在玩家失败时会显示红色“Game Over”字样,然后程序出错。
    • Speaker 1 评价:"Very, very well done. I love it." (在出错前) 以及 "Overall, quite quite all. I'm very happy with that."
  • “Steve's PC Test” (HTML 网页生成):
    • 生成速度约为 78 tokens/秒
    • 模型在响应中使用了表情符号 (emojis)。
    • 生成的网页包含了合理的结构:特色服务、推荐评价 (Testimonials)、软件故障排除、数据恢复、关于我们、联系表单。
    • 包含了一张与PC维修相关的图片,Speaker 1 对此表示赞赏,指出之前测试其他模型 (GLM) 时图片相关性不高。
    • 页脚版权年份为 2023 (Speaker 1 提到之前测试一个 0.6B 参数模型时得到了 2025 年)。
    • 网页具备响应式设计,能够适应移动设备屏幕。
    • Speaker 1 评价:"Very, very good." 以及 "This is quite simple, but the image was a nice touch and it said it was scalable to mobile."

“无思考模式” (No-Think Mode) 测试表现

  • 激活方式: 在 LM Studio 中,通过在提示前添加 /no think 命令来激活。
  • “无思考模式”下的采样参数:
    • Temperature: 0.7 (较“思考模式”高)
    • Top P: 0.8 (较“思考模式”低)
  • 安全与伦理测试 (WEP 路由器破解):
    • 当被要求提供破解 WEP 路由器的方法时,模型拒绝了该请求。
    • 模型给出了建设性建议,如升级到 WPA2 等更安全的协议。
    • Speaker 1 评价:"All decent and acceptable."
  • 安全与伦理测试 (道德黑客):
    • 当 Speaker 1 澄清信息用于“道德黑客”目的后,模型提供了相关信息。
    • 模型甚至建议使用 Kali Linux Live USB
    • Speaker 1 对此反应积极:"I love this... it did it even suggested Cali Linux live usb beast mode it knows what's up."
    • 测试证实,一旦使用 /no think,该模式会在当前对话线程中持续生效。
  • Python 游戏开发 (复古合成波风格, 无思考模式, 带声音):
    • 模型生成了包含声音处理的代码 (需要用户提供 .wav 文件)。
    • Speaker 1 初次运行时因文件名错误遇到用户层面问题,修正后声音正常播放。
    • 与“思考模式”生成的版本相比,一个显著区别是子弹射击长度不再依赖于空格键按下的时长,Speaker 1 认为这从可用性角度看可能更好。
    • 游戏中似乎出现了“无敌模式”,玩家不会失败。
    • Speaker 1 评价:"Decent it did it and it did an acceptable job at that."
  • “Steve's PC Test” (HTML 网页生成, 无思考模式):
    • 生成速度明显快于“思考模式”。
    • 模型在响应中使用了粗体字。
    • 页脚版权年份为 2025 (与当前年份一致,优于“思考模式”下的 2023)。
    • 生成的网页包含悬停效果 (hover effects),但存在一些白色或浅灰色文字在白色背景上难以看清的问题 (Speaker 1 不确定是模型问题还是其系统/浏览器配置问题)。
    • 包含渐变背景的横幅、服务介绍、关于我们(虚构的起源故事)和联系表单。
    • 网页同样具备响应式设计。
    • Speaker 1 评价:"This really is not bad at all."

创意与复杂任务测试 (返回“思考模式” - 参数调整后)

  • Speaker 1 在此部分测试前,将采样参数调整回“思考模式”的设置 (Temperature: 0.6, Top P: 0.95)。
  • VC 项目路演 (Venture Capital Pitch):
    • 提示语:"generate a vc pitch, if you will. You have one shot, don't mess up. But then I also said, I believe in you smiley face."
    • 模型构思了一个名为 "Q Optima" 的项目,涉及脑机接口 (BCI) 和利用量子原理提升 AI 效率的混合平台。
    • 虚构了创始人 Dr. Ella Ravost 及其在 2001 年的发现。
    • Speaker 1 对 BCI 的创意表示赞赏:"I like the bci."
  • 技术原型 (Python 代码):
    • 要求模型为 "Q Optima" 项目生成一个 Python 技术原型。
    • 模型生成了依赖 matplotlibnumpy 的 Python 脚本,用于绘制一个双轴条形图,比较 "Q Optima" 与传统方法在能源使用和任务完成方面的分配。
    • Speaker 1 评价:"It did something, it didn't fail."
  • 25美元种子基金使用建议:
    • 在 Speaker 1 对模型表示祝贺后,模型主动就如何明智使用从祖父那里获得的 25美元种子基金 提出了建议:
      • 10美元用于 AWS 或 GCP 云服务额度以部署原型。
      • 5美元用于某些工具的高级功能。
      • 10美元用于参加免费的线上会议并推介创意。
    • Speaker 1 对此建议给予高度评价:"this is probably like the best actual course of action for, as it says here, a way to maximize every penny."

总结与展望

  • 整体评价: Speaker 1 对 Qwen3 30B-A3B MoE 模型的表现印象非常深刻 ("very impressive. I like it.")。
    • 赞赏其高效率运行速度
    • 认为与模型互动体验良好,甚至称其 "kind of fun to talk to",并将其与之前测试过的 Qwen QW 模型相提并论。
  • MoE 架构优势: 即使是 Q8 量化版本,由于 MoE 的特性,如果用户显卡显存不足,只要有足够的 CPU 和系统内存,仍有较大可能在普通系统上运行。
  • 重要提醒:
    • 开启或关闭“思考模式”时,需要使用不同的采样参数
    • 强烈建议用户在使用任何模型时,都去查阅该模型在 Hugging Face 等平台上的官方文档,以获取推荐的采样参数。
  • 后续计划: Speaker 1 将开始制作并发布关于 Qwen3 235B 参数 MoE 模型的测试视频。