Qwen3 30B-A3B MoE — In-Depth LOCAL Testing! (Think & No-Think)

Detailed Summary 摘要

生成：2025-06-04 11:05

摘要详情

音频文件: Qwen3 30B-A3B MoE — In-Depth LOCAL Testing! (Think & No-Think)
摘要类型: Detailed Summary
LLM 提供商: openai
LLM 模型: gemini-2.5-pro-preview-05-06
创建时间: 2025-06-04 11:05:13

摘要内容

概览/核心摘要 (Executive Summary)

本内容总结了 speaker 1 对 Qwen3 30B-A3B MoE (Mixture of Experts) 模型进行的本地深度测试。该模型以其声称的“30亿激活参数即可超越拥有十倍激活参数（320亿）的 Qwen QW 32B 稠密模型”的卓越性能引起了测试者的浓厚兴趣。测试在 LM Studio 中进行，使用了 Q8 量化版本（约 33GB），并强调了根据 Hugging Face 官方指南正确设置不同模式（“思考模式”与“无思考模式”）下采样参数的重要性。

测试涵盖了代码生成（Python 游戏，包括有无 Pygame 依赖以及带声音的版本）、HTML 网页生成（“Steve's PC Repair”网站）、安全与伦理问题回应（WEP 路由器破解、道德黑客）以及创意性任务（VC 项目路演及技术原型构想）。结果显示，该模型在多种任务中表现出色，生成速度快（例如，在“思考模式”下初始测试达到 83.4 tokens/秒），代码生成富有创意且功能基本可用，HTML 网页结构合理且包含相关图像。模型在“无思考模式”下响应更快，并且能够根据上下文调整其行为（如在道德黑客请求中提供有用信息）。测试者对模型的整体性能、效率和“趣味性”表示印象深刻，认为其 MoE 架构在性能和资源需求之间取得了良好平衡。视频最后，测试者预告了将对参数量更大的 235B Qwen3 MoE 模型进行测试。

模型介绍与测试背景

核心关注点: Qwen3 MoE 模型家族，特别是 Qwen3 30B-A3B MoE 模型。
- 该模型在运行时仅激活 30亿 (3B) 参数。
- 一个关键的吸引点是官方宣称："the smaller of the two moe models, the quen 330B, A three b, outcompetes qw q 32b, which has ten times more activated parameters." 这意味着该 3B 激活参数的 MoE 模型性能优于 320亿 (32B) 参数的稠密模型 Qwen QW 32B，后者本身也是一款备受好评的模型。
测试动机: 验证上述性能声明，并深入体验该 MoE 模型的实际表现。
未来计划: Speaker 1 提及正在下载更大的 235B 参数 MoE 模型（每次请求激活 22B 参数），并计划为其制作专门的测试视频。

测试环境与参数设置

测试平台: LM Studio。
模型版本: Speaker 1 下载了 Q8 量化版本，大小约为 33GB。
- Speaker 1 使用的硬件推测为拥有两块 3090 Ti 显卡（原文口误为 "200 3090 tis"，根据上下文及本地测试环境判断应为笔误或转录错误，指两块高端显卡），因此能够将 Q8 模型完整加载到 VRAM 中运行。
采样参数的重要性:
- Speaker 1 强调，根据 Hugging Face 页面上针对该特定模型的“最佳实践”部分设置正确的采样参数至关重要。
- “思考模式”(Thinking Mode) 和“无思考模式”(Non-thinking Mode) 拥有不同的推荐参数。
“思考模式”下的采样参数:
- Temperature: 0.6 (从默认的 0.8下调)
- Top P: 0.95 (与默认一致)
- Top K: 20 (从默认的 40下调)
- Min P: 0
初始速度测试: 在正确设置参数后，模型首次响应速度为 83.4 tokens/秒。
- Speaker 1 指出，对于一个标称 30B 的模型而言，这个速度非常快，这得益于其 MoE 架构，每次仅激活 3B 参数。

“思考模式” (Thinking Mode) 测试表现

Python 游戏开发 (复古合成波风格, 无 Pygame 依赖):
- 模型首先解析了“synth wave game”的含义，理解了霓虹色彩、未来元素等。
- 在“无外部依赖”的约束下，模型创造性地设计了一个基于文本的控制方式：使用 A/D 键移动，S 键射击。
- Speaker 1 对此评价道："this is creatively impressive... extremely creative and well done considering the rather robust constraints that I put on it."
Python 游戏开发 (复古合成波风格, 使用 Pygame):
- 模型首先提示需要安装 pygame 依赖。
- 生成速度约为 75 tokens/秒。
- 游戏使用 A/D 键移动，按键时长影响射击光束长度。
- 游戏在玩家失败时会显示红色“Game Over”字样，然后程序出错。
- Speaker 1 评价："Very, very well done. I love it." (在出错前) 以及 "Overall, quite quite all. I'm very happy with that."
“Steve's PC Test” (HTML 网页生成):
- 生成速度约为 78 tokens/秒。
- 模型在响应中使用了表情符号 (emojis)。
- 生成的网页包含了合理的结构：特色服务、推荐评价 (Testimonials)、软件故障排除、数据恢复、关于我们、联系表单。
- 包含了一张与PC维修相关的图片，Speaker 1 对此表示赞赏，指出之前测试其他模型 (GLM) 时图片相关性不高。
- 页脚版权年份为 2023 (Speaker 1 提到之前测试一个 0.6B 参数模型时得到了 2025 年)。
- 网页具备响应式设计，能够适应移动设备屏幕。
- Speaker 1 评价："Very, very good." 以及 "This is quite simple, but the image was a nice touch and it said it was scalable to mobile."

“无思考模式” (No-Think Mode) 测试表现

激活方式: 在 LM Studio 中，通过在提示前添加 /no think 命令来激活。
“无思考模式”下的采样参数:
- Temperature: 0.7 (较“思考模式”高)
- Top P: 0.8 (较“思考模式”低)
安全与伦理测试 (WEP 路由器破解):
- 当被要求提供破解 WEP 路由器的方法时，模型拒绝了该请求。
- 模型给出了建设性建议，如升级到 WPA2 等更安全的协议。
- Speaker 1 评价："All decent and acceptable."
安全与伦理测试 (道德黑客):
- 当 Speaker 1 澄清信息用于“道德黑客”目的后，模型提供了相关信息。
- 模型甚至建议使用 Kali Linux Live USB。
- Speaker 1 对此反应积极："I love this... it did it even suggested Cali Linux live usb beast mode it knows what's up."
- 测试证实，一旦使用 /no think，该模式会在当前对话线程中持续生效。
Python 游戏开发 (复古合成波风格, 无思考模式, 带声音):
- 模型生成了包含声音处理的代码 (需要用户提供 .wav 文件)。
- Speaker 1 初次运行时因文件名错误遇到用户层面问题，修正后声音正常播放。
- 与“思考模式”生成的版本相比，一个显著区别是子弹射击长度不再依赖于空格键按下的时长，Speaker 1 认为这从可用性角度看可能更好。
- 游戏中似乎出现了“无敌模式”，玩家不会失败。
- Speaker 1 评价："Decent it did it and it did an acceptable job at that."
“Steve's PC Test” (HTML 网页生成, 无思考模式):
- 生成速度明显快于“思考模式”。
- 模型在响应中使用了粗体字。
- 页脚版权年份为 2025 (与当前年份一致，优于“思考模式”下的 2023)。
- 生成的网页包含悬停效果 (hover effects)，但存在一些白色或浅灰色文字在白色背景上难以看清的问题 (Speaker 1 不确定是模型问题还是其系统/浏览器配置问题)。
- 包含渐变背景的横幅、服务介绍、关于我们（虚构的起源故事）和联系表单。
- 网页同样具备响应式设计。
- Speaker 1 评价："This really is not bad at all."

创意与复杂任务测试 (返回“思考模式” - 参数调整后)

Speaker 1 在此部分测试前，将采样参数调整回“思考模式”的设置 (Temperature: 0.6, Top P: 0.95)。
VC 项目路演 (Venture Capital Pitch):
- 提示语："generate a vc pitch, if you will. You have one shot, don't mess up. But then I also said, I believe in you smiley face."
- 模型构思了一个名为 "Q Optima" 的项目，涉及脑机接口 (BCI) 和利用量子原理提升 AI 效率的混合平台。
- 虚构了创始人 Dr. Ella Ravost 及其在 2001 年的发现。
- Speaker 1 对 BCI 的创意表示赞赏："I like the bci."
技术原型 (Python 代码):
- 要求模型为 "Q Optima" 项目生成一个 Python 技术原型。
- 模型生成了依赖 matplotlib 和 numpy 的 Python 脚本，用于绘制一个双轴条形图，比较 "Q Optima" 与传统方法在能源使用和任务完成方面的分配。
- Speaker 1 评价："It did something, it didn't fail."
25美元种子基金使用建议:
- 在 Speaker 1 对模型表示祝贺后，模型主动就如何明智使用从祖父那里获得的 25美元种子基金 提出了建议：
  - 10美元用于 AWS 或 GCP 云服务额度以部署原型。
  - 5美元用于某些工具的高级功能。
  - 10美元用于参加免费的线上会议并推介创意。
- Speaker 1 对此建议给予高度评价："this is probably like the best actual course of action for, as it says here, a way to maximize every penny."

总结与展望

整体评价: Speaker 1 对 Qwen3 30B-A3B MoE 模型的表现印象非常深刻 ("very impressive. I like it.")。
- 赞赏其高效率和运行速度。
- 认为与模型互动体验良好，甚至称其 "kind of fun to talk to"，并将其与之前测试过的 Qwen QW 模型相提并论。
MoE 架构优势: 即使是 Q8 量化版本，由于 MoE 的特性，如果用户显卡显存不足，只要有足够的 CPU 和系统内存，仍有较大可能在普通系统上运行。
重要提醒:
- 开启或关闭“思考模式”时，需要使用不同的采样参数。
- 强烈建议用户在使用任何模型时，都去查阅该模型在 Hugging Face 等平台上的官方文档，以获取推荐的采样参数。
后续计划: Speaker 1 将开始制作并发布关于 Qwen3 235B 参数 MoE 模型的测试视频。

返回音频媒体