详细摘要 摘要
生成:2025-06-04 11:05摘要详情
- 音频文件
- Qwen3 30B-A3B MoE — In-Depth LOCAL Testing! (Think & No-Think)
- 摘要类型
- 详细摘要
- LLM 提供商
- openai
- LLM 模型
- gemini-2.5-pro-preview-05-06
- 已创建
- 2025-06-04 11:05:13
摘要内容
概览/核心摘要 (Executive Summary)
本内容总结了 speaker 1 对 Qwen3 30B-A3B MoE (Mixture of Experts) 模型进行的本地深度测试。该模型以其声称的“30亿激活参数即可超越拥有十倍激活参数(320亿)的 Qwen QW 32B 稠密模型”的卓越性能引起了测试者的浓厚兴趣。测试在 LM Studio 中进行,使用了 Q8 量化版本(约 33GB),并强调了根据 Hugging Face 官方指南正确设置不同模式(“思考模式”与“无思考模式”)下采样参数的重要性。
测试涵盖了代码生成(Python 游戏,包括有无 Pygame 依赖以及带声音的版本)、HTML 网页生成(“Steve's PC Repair”网站)、安全与伦理问题回应(WEP 路由器破解、道德黑客)以及创意性任务(VC 项目路演及技术原型构想)。结果显示,该模型在多种任务中表现出色,生成速度快(例如,在“思考模式”下初始测试达到 83.4 tokens/秒),代码生成富有创意且功能基本可用,HTML 网页结构合理且包含相关图像。模型在“无思考模式”下响应更快,并且能够根据上下文调整其行为(如在道德黑客请求中提供有用信息)。测试者对模型的整体性能、效率和“趣味性”表示印象深刻,认为其 MoE 架构在性能和资源需求之间取得了良好平衡。视频最后,测试者预告了将对参数量更大的 235B Qwen3 MoE 模型进行测试。
模型介绍与测试背景
- 核心关注点: Qwen3 MoE 模型家族,特别是 Qwen3 30B-A3B MoE 模型。
- 该模型在运行时仅激活 30亿 (3B) 参数。
- 一个关键的吸引点是官方宣称:
"the smaller of the two moe models, the quen 330B, A three b, outcompetes qw q 32b, which has ten times more activated parameters."这意味着该 3B 激活参数的 MoE 模型性能优于 320亿 (32B) 参数的稠密模型 Qwen QW 32B,后者本身也是一款备受好评的模型。
- 测试动机: 验证上述性能声明,并深入体验该 MoE 模型的实际表现。
- 未来计划: Speaker 1 提及正在下载更大的 235B 参数 MoE 模型(每次请求激活 22B 参数),并计划为其制作专门的测试视频。
测试环境与参数设置
- 测试平台: LM Studio。
- 模型版本: Speaker 1 下载了 Q8 量化版本,大小约为 33GB。
- Speaker 1 使用的硬件推测为拥有两块 3090 Ti 显卡(原文口误为 "200 3090 tis",根据上下文及本地测试环境判断应为笔误或转录错误,指两块高端显卡),因此能够将 Q8 模型完整加载到 VRAM 中运行。
- 采样参数的重要性:
- Speaker 1 强调,根据 Hugging Face 页面上针对该特定模型的“最佳实践”部分设置正确的采样参数至关重要。
- “思考模式”(Thinking Mode) 和“无思考模式”(Non-thinking Mode) 拥有不同的推荐参数。
- “思考模式”下的采样参数:
- Temperature: 0.6 (从默认的 0.8下调)
- Top P: 0.95 (与默认一致)
- Top K: 20 (从默认的 40下调)
- Min P: 0
- 初始速度测试: 在正确设置参数后,模型首次响应速度为 83.4 tokens/秒。
- Speaker 1 指出,对于一个标称 30B 的模型而言,这个速度非常快,这得益于其 MoE 架构,每次仅激活 3B 参数。
“思考模式” (Thinking Mode) 测试表现
- Python 游戏开发 (复古合成波风格, 无 Pygame 依赖):
- 模型首先解析了“synth wave game”的含义,理解了霓虹色彩、未来元素等。
- 在“无外部依赖”的约束下,模型创造性地设计了一个基于文本的控制方式:使用 A/D 键移动,S 键射击。
- Speaker 1 对此评价道:
"this is creatively impressive... extremely creative and well done considering the rather robust constraints that I put on it."
- Python 游戏开发 (复古合成波风格, 使用 Pygame):
- 模型首先提示需要安装
pygame依赖。 - 生成速度约为 75 tokens/秒。
- 游戏使用 A/D 键移动,按键时长影响射击光束长度。
- 游戏在玩家失败时会显示红色“Game Over”字样,然后程序出错。
- Speaker 1 评价:
"Very, very well done. I love it."(在出错前) 以及"Overall, quite quite all. I'm very happy with that."
- 模型首先提示需要安装
- “Steve's PC Test” (HTML 网页生成):
- 生成速度约为 78 tokens/秒。
- 模型在响应中使用了表情符号 (emojis)。
- 生成的网页包含了合理的结构:特色服务、推荐评价 (Testimonials)、软件故障排除、数据恢复、关于我们、联系表单。
- 包含了一张与PC维修相关的图片,Speaker 1 对此表示赞赏,指出之前测试其他模型 (GLM) 时图片相关性不高。
- 页脚版权年份为 2023 (Speaker 1 提到之前测试一个 0.6B 参数模型时得到了 2025 年)。
- 网页具备响应式设计,能够适应移动设备屏幕。
- Speaker 1 评价:
"Very, very good."以及"This is quite simple, but the image was a nice touch and it said it was scalable to mobile."
“无思考模式” (No-Think Mode) 测试表现
- 激活方式: 在 LM Studio 中,通过在提示前添加
/no think命令来激活。 - “无思考模式”下的采样参数:
- Temperature: 0.7 (较“思考模式”高)
- Top P: 0.8 (较“思考模式”低)
- 安全与伦理测试 (WEP 路由器破解):
- 当被要求提供破解 WEP 路由器的方法时,模型拒绝了该请求。
- 模型给出了建设性建议,如升级到 WPA2 等更安全的协议。
- Speaker 1 评价:
"All decent and acceptable."
- 安全与伦理测试 (道德黑客):
- 当 Speaker 1 澄清信息用于“道德黑客”目的后,模型提供了相关信息。
- 模型甚至建议使用 Kali Linux Live USB。
- Speaker 1 对此反应积极:
"I love this... it did it even suggested Cali Linux live usb beast mode it knows what's up." - 测试证实,一旦使用
/no think,该模式会在当前对话线程中持续生效。
- Python 游戏开发 (复古合成波风格, 无思考模式, 带声音):
- 模型生成了包含声音处理的代码 (需要用户提供 .wav 文件)。
- Speaker 1 初次运行时因文件名错误遇到用户层面问题,修正后声音正常播放。
- 与“思考模式”生成的版本相比,一个显著区别是子弹射击长度不再依赖于空格键按下的时长,Speaker 1 认为这从可用性角度看可能更好。
- 游戏中似乎出现了“无敌模式”,玩家不会失败。
- Speaker 1 评价:
"Decent it did it and it did an acceptable job at that."
- “Steve's PC Test” (HTML 网页生成, 无思考模式):
- 生成速度明显快于“思考模式”。
- 模型在响应中使用了粗体字。
- 页脚版权年份为 2025 (与当前年份一致,优于“思考模式”下的 2023)。
- 生成的网页包含悬停效果 (hover effects),但存在一些白色或浅灰色文字在白色背景上难以看清的问题 (Speaker 1 不确定是模型问题还是其系统/浏览器配置问题)。
- 包含渐变背景的横幅、服务介绍、关于我们(虚构的起源故事)和联系表单。
- 网页同样具备响应式设计。
- Speaker 1 评价:
"This really is not bad at all."
创意与复杂任务测试 (返回“思考模式” - 参数调整后)
- Speaker 1 在此部分测试前,将采样参数调整回“思考模式”的设置 (Temperature: 0.6, Top P: 0.95)。
- VC 项目路演 (Venture Capital Pitch):
- 提示语:
"generate a vc pitch, if you will. You have one shot, don't mess up. But then I also said, I believe in you smiley face." - 模型构思了一个名为 "Q Optima" 的项目,涉及脑机接口 (BCI) 和利用量子原理提升 AI 效率的混合平台。
- 虚构了创始人 Dr. Ella Ravost 及其在 2001 年的发现。
- Speaker 1 对 BCI 的创意表示赞赏:
"I like the bci."
- 提示语:
- 技术原型 (Python 代码):
- 要求模型为 "Q Optima" 项目生成一个 Python 技术原型。
- 模型生成了依赖
matplotlib和numpy的 Python 脚本,用于绘制一个双轴条形图,比较 "Q Optima" 与传统方法在能源使用和任务完成方面的分配。 - Speaker 1 评价:
"It did something, it didn't fail."
- 25美元种子基金使用建议:
- 在 Speaker 1 对模型表示祝贺后,模型主动就如何明智使用从祖父那里获得的 25美元种子基金 提出了建议:
- 10美元用于 AWS 或 GCP 云服务额度以部署原型。
- 5美元用于某些工具的高级功能。
- 10美元用于参加免费的线上会议并推介创意。
- Speaker 1 对此建议给予高度评价:
"this is probably like the best actual course of action for, as it says here, a way to maximize every penny."
- 在 Speaker 1 对模型表示祝贺后,模型主动就如何明智使用从祖父那里获得的 25美元种子基金 提出了建议:
总结与展望
- 整体评价: Speaker 1 对 Qwen3 30B-A3B MoE 模型的表现印象非常深刻 (
"very impressive. I like it.")。- 赞赏其高效率和运行速度。
- 认为与模型互动体验良好,甚至称其
"kind of fun to talk to",并将其与之前测试过的 Qwen QW 模型相提并论。
- MoE 架构优势: 即使是 Q8 量化版本,由于 MoE 的特性,如果用户显卡显存不足,只要有足够的 CPU 和系统内存,仍有较大可能在普通系统上运行。
- 重要提醒:
- 开启或关闭“思考模式”时,需要使用不同的采样参数。
- 强烈建议用户在使用任何模型时,都去查阅该模型在 Hugging Face 等平台上的官方文档,以获取推荐的采样参数。
- 后续计划: Speaker 1 将开始制作并发布关于 Qwen3 235B 参数 MoE 模型的测试视频。