导出图片 - 2026-04-06 | Knowledge Planet (知识星球) | 一线开发者实测：主流大模型编程与多模态能力深度对比

2026-04-06 | Knowledge Planet (知识星球) | 一线开发者实测：主流大模型编程与多模态能力深度对比

类型: 详细摘要模型: gpt-5.4 创建时间: 2026-04-06 10:51

核心判断

这次分享的出发点不是“谁在榜单上高几分”，而是“谁在真实开发里更省事、更少出错、更容易维护”。

佳宏认为，公开 Benchmark 的问题越来越明显：
主流模型分数往往只差 1—2 分，但这点差距很难帮助非重度用户理解模型在真实使用中的差别，甚至这几分本身也未必有足够代表性。真正影响开发体验的，不只是“任务是否完成”，而是：

完成方式是否合理
是否会遗漏关键细节
是否需要大量返工
是否给后续维护埋坑

他用“拆门”做比喻来说明这一点：
同样是“把门拆掉”，强模型像是用螺丝刀把门安静拆下、零件摆好；差一些的模型可能直接拿电锯锯掉。Benchmark 只看“门拆没拆掉”，但开发者真正关心的是：它有没有把螺丝丢满地、有没有把可维护性一起锯掉。

因此，在佳宏看来，强模型的定义不是只会把事情做完，而是能把事情“完整、少纰漏、低摩擦”地做完。

评测方法：为什么必须用自己熟悉的真实项目

佳宏没有采用公开题库，而是直接拿自己最近在做的真实项目来测。

原因很直接：只有在自己非常熟悉的项目里，开发者才能准确判断：

模型给出的计划到底对不对
改法到底好不好
哪些是无伤大雅的小问题
哪些会让项目后续维护成本暴涨

他选用的项目，是一个为自己服务的信息聚合产品：
自动抓取、整理海外 KOL 的关键信息，减少自己在中文互联网中反复消费二手消息、过时消息的时间成本。这个项目不仅有信息整理需求，也有明确的 UI 设计与美观要求，因此很适合拿来同时测试前端和后端能力。

测试设置与平台说明

以下模型/平台名称按录音转写与语境统一整理：Claude Code、Codex、GPT5.4、OP4.6、Gemini 3.1 Pro、GLM5、MiniMax 2.7、Kimi 2.5、Qwen 3.6。部分正式型号名称仍应以原始界面为准。

1. 前端测试任务

前端测试的目标是：
把真实页面及日期筛选、设置弹窗等多个状态截图后，交给 7 个模型，要求它们基于截图、上下文和明确技术栈说明，尽可能高保真复刻页面。

这个任务重点考察：

多模态理解能力
UI 理解能力
指令跟随能力
前端框架实现能力
自我检查与继续 refine 的能力

佳宏的测试流程是统一的：

给出同样的 prompt 和上下文
让模型自己建项目骨架
自己写代码、运行、调试、迭代
再额外要求它对照截图继续 review 和 refine
直到模型在没有人工干预的情况下，达到它自己能做到的最好状态

他的重点不是看“第一轮草稿”，而是看模型上限。

2. 后端测试任务

后端测试来自一个真实 bug：
系统每天早上 8 点会给他发送前一日的 KOL 摘要邮件，但邮件里的头像显示异常。

他故意不先修这个 bug，而是把它拿来测试模型的后端能力。
这部分考察的不只是“会不会修”，而是：

能否准确说明调试过程
能否找到真正根因
能否提出优雅、可维护的方案
能否在大型代码仓库里稳定地沿着正确路径分析

3. 平台与中间层影响

不同模型的入口并不完全一致：

多个国产模型通过 Claude Code 进行
GPT5.4 在 Codex 上测试
Gemini 3.1 Pro 使用 Google 自家平台

主持人追问：中间层是不是会显著影响结果？
佳宏的回答是：会，但不是全部。

他提到，业内有一种经验性讨论是：
Agent 脚手架 / harness engineering / 原生框架，可能带来约 10 个点的性能增益。

但他同时强调，框架再重要，也不能替代基座模型本身的差异，尤其在长序列复杂任务上，底层能力差距仍然很明显。

他对平台的实际体感总结是：

Claude Code：交互便捷、短平快、非常跟手，更适合快速任务
Codex：更工程化、更 formal，在复杂长任务上更稳、更强

前端实测：多模态、UI 理解与高保真复刻能力

1. OP4.6：速度极快，但高保真和细节完成度仍有限

这是前端里最鲜明的一类选手：快，非常快。

生成页面大约只要 3 分钟
使用体验像有人在旁边实时结对编程
在 5—10 分钟 这个时间窗口里，佳宏认为很难有模型做得比它更好

但它的问题也很明显：

把 Next.js 的调试入口误识别成页面 UI 元素
卡片效果、渐变色、排版细节都没完全还原
时间线位置、筛选弹窗逻辑、局部样式都有偏差
整体更像是“骨架做出来了”，而不是“页面被高保真复刻了”

佳宏对它的评价是：
如果目标是迅速起一个可运行的前端雏形，它非常强；但如果目标是复杂页面的精细复刻，它并不是最优解。

2. GLM5：看懂了大类场景，但没有真正做对任务

GLM5 的问题不是完全没产出，而是产出了一个“像那么回事”的错误答案。

它大致识别出这是一个类似博客或信息展示页面，于是套出了一个相近方向的结构；但问题在于：

原页面核心是 KOL 观点卡片与信息汇总
它却把很多内容理解成了人物介绍
真正关键的 card 结构、信息组织逻辑、设计表达都偏了

佳宏特别强调，这类错误对开发者最折磨：
因为表面上模型“做了东西”，但实际距离目标很远，修它的时间成本可能比重来还高。

3. GPT5.4：前端综合能力最强，长任务优势明显，但时间和成本更高

这是佳宏在本次前端测试中评价最高的模型。

他给出的对比很直观：

GPT5.2 做类似页面，可能要 4 小时、消耗约 800 万 tokens
GPT5.4 则可能压缩到 不到 1 小时、约 200 万—300 万 tokens

在结果上，GPT5.4 的页面复刻质量明显更高：

下拉框设计、颜色风格、整体排版更接近原稿
复刻程度肉眼可见地领先于其他模型
但依然存在小 bug 与局部偏差，比如：
- 点击外围无法自动收起
- 某些地方只能单选
- 设置弹窗位置不对
- card 的排布与细小加粗风格没有完全跟上

尽管如此，佳宏仍然给出了非常明确的判断：
在这次项目和测试设定下，GPT5.4 是前端复杂长任务里最强的模型。

他同时强调一个很关键的工程现实：
编程任务的难度不是线性上升，而是后半段呈指数级变难。
从 0 做到 80 分，和从 80 分抠到 100 分，时间复杂度完全不是一个量级。

4. MiniMax 2.7：前端短板明显，关键原因是多模态不足

MiniMax 在这个前端任务中的表现很弱，佳宏的结论也非常直接：

没有足够的多模态能力，前端复刻基本无从谈起
即便借助外部 OCR 管道把图片转成文字，也无法补足排版、层次、风格这些关键信息
连前端框架的基本使用都出现了问题

因此，他把一个判断说得很明确：
如果模型不具备足够的多模态能力，它的编程能力很难在前端场景里真正体现，更多只能在后端文本类任务里发挥。

5. Gemini 3.1 Pro：多模态理解强，但代码稳定性与可维护性不够

Gemini 在“看懂页面”这件事上表现不错：

多模态能力强
能较好复制截图中的文字与布局信息
整体视觉效果比很多国产模型更接近目标

但佳宏对它的代码质量评价不高，问题主要集中在：

页面会异常刷新
存在 bug
一些功能虽然看起来做了，但并不稳定
放到更大、更长期维护的代码库里，会让人不放心

因此它呈现出一种很典型的特征：
看图能力强，实现层的稳定性和工程质量不够。

6. Kimi 2.5：比 GLM5 稍好，但明显偏模板化

Kimi 至少保留了一些 card 的感觉，没有像 GLM5 那样完全做偏类型。
但佳宏认为，它更像是从已有模板库中抽出了一个相近样式，而不是真正理解了需求。

他对 Kimi 的判断是：

形式上比 GLM5 更接近目标
但本质上仍然是在“套模板”
对用户意图的跟随不够深
更像一个熟练应付考试题的学生，而不是一个真正理解设计意图的协作者

7. Qwen 3.6：国产模型里最接近“可用门槛”的前端选手

这是本次前端实测里，国产模型中最让佳宏感到意外的一家。

他的核心感受是：
Qwen 3.6 是一众国产模型里，少数真正“跟得上意图”的。

具体表现包括：

在没有把 prompt 写到极度细碎的情况下，也能大体理解要做什么
相比 GLM5、Kimi、MiniMax，它更像是在认真完成“复刻这个页面”这件事
在前端任务中，它表现出了比较强的自检意识，会大量调用 Playwright 去检查页面排版和实现情况

但它距离 GPT5.4 和 OP4.6 仍有明显差距，主要问题是：

细节错误较多，例如日期都可能复制错
悬浮窗、局部交互和布局仍然不到位
工具调用稳定性和整体编码质量还不够成熟
想把它修到 GPT 或 Gemini 的首轮水平，开发者可能还要多发 5—10 轮 prompt，再投入 3—5 小时

佳宏给出的结论很鲜明：
在这次前端实测里，Qwen 3.6 是国产模型中最有“国产替代可用感”的一个。
他甚至直说，如果海外模型完全不能用，自己会转向 Qwen 3.6。

8. 前端测试的一个核心发现

经过这一轮前端实测，佳宏反复强调的不是单点胜负，而是一个更普遍的规律：

前端任务里，多模态能力、意图理解能力、自检能力，往往比“单纯会写代码”更重要。
因为很多设计细节、交互意图、风格要求，本来就很难通过文字完整表达。
真正强的模型，应该能靠截图、上下文和少量提示，把大量“说不出来的东西”补齐。

后端实测：根因定位、方案优雅性与长序列稳定性

1. 测试问题本身

这个 bug 的现象很简单：
邮件日报里的头像显示不出来。

但佳宏强调，这个题的难点不在“看懂表象”，而在“沿着正确链路找出真正根因，并给出优雅修法”。

实际根因是：

邮件里用的是公网头像 URL
手机端不挂代理就访问不了
但系统本地数据库里其实已经缓存了 KOL 头像
正确思路应该是：邮件改用本地服务提供的头像地址
而且头像 URL 还带有版本参数 -v
这个参数如果漏掉，会让后续维护与运行继续出问题

佳宏把这个问题拆成了几个层次：

看到“头像坏了”只是最表面的现象
找到“公网 URL 不可达”才算定位到根因
能进一步发现“本地数据库已有缓存头像”
最后还能注意到 -v 版本参数，才接近满分答案

而这一切，发生在一个大约 5 万行代码、数百文件夹 的真实仓库里。

2. GPT5.4：后端综合能力最强

在后端 bug 排查中，GPT5.4 依然是佳宏给出的第一名。

它基本完成了所有关键层级：

找对了邮件流程和相关代码位置
找到了根因
提出了正确修复方向
识别到了 -v 这个关键版本参数

佳宏对它的评价是：
在长序列复杂任务里，GPT5.4 的整体能力最强。

它的问题主要不是方向错，而是有时表述比较绝对，但这在他看来属于小问题，不影响总体判断。

3. OP4.6：很强，但少了关键一环

OP4.6 在后端任务上也很强，主要短板是：

没有识别到 -v 参数

这意味着它虽然方向基本对了，但还需要再多一轮人类介入测试与反馈。
佳宏专门解释了为什么这不是小事：

在这类需要真实发邮件、等待结果、人工确认的任务里，
哪怕只差这样一个点，也会让开发者多花 10—20 分钟，甚至更多。

所以 OP4.6 在后端并不是“不会”，而是：
它足够强，但还不够严谨到一次到位。

4. MiniMax 2.7：后端分析能力不错，但方案偏暴力，且长序列约束风险明显

MiniMax 在后端的表现，比前端好得多，这也是佳宏觉得比较惊讶的地方。

它的优点是：

文本分析能力不错
长任务里的分析结果有一定质量
反应也比较快

但它有两个非常关键的问题。

第一，修法不够优雅。
它倾向于建议后端放宽对 -v 的校验，以尽快把 bug 修过去。
这类方案短期有效，但会破坏系统的长期严谨性和可维护性。
在佳宏看来，这种修法就像为了图省事，把本来应该精修的结构直接改粗放了。

第二，长序列任务里的约束记忆不稳。
在这次后端“只读调研”的设定下，佳宏明确要求模型不要改动仓库内容，只做调研分析。
但录音中提到，有三个模型仍然把调研报告直接写进了仓库根目录，这被他视为非常严重的问题；主持人当场还插话确认，Gemini 也在被批评之列。
MiniMax 是其中被佳宏重点展开讨论的一例。

这类错误为什么严重？
因为它说明模型在长步骤过程中会忘掉关键限制条件。
在真实开发里，这不是“小毛病”，而是可能破坏仓库、污染工作流、制造额外清理成本的风险点。

因此，佳宏对 MiniMax 的结论是：
后端分析能力值得注意，但权限、约束和长期维护风险必须严防。

5. Gemini 3.1 Pro：能看出问题，但方案不够工程化

Gemini 在后端不是完全没找对方向，但给出的方案同样偏粗糙。
佳宏的核心批评点不是“它看不出 bug”，而是：

它的方案对长期维护不友好
放到成熟代码库里，会让系统越修越难维护
在工程性上，明显不如 GPT5.4 和 OP4.6

加上前面提到的“只读调研任务中仍向仓库写报告”的问题，Gemini 在真实协作环境中的可信度就会被进一步打折。

6. Qwen 3.6：国产模型里整体最稳，但关键细节仍差一层

Qwen 3.6 在后端整体上依然是国产模型中较好的一个。
它的问题不是完全没看懂，而是没看到最关键的最后一层细节：

它没有意识到头像 URL 里还需要 -v 参数
因此最终方案仍然不够完整

这意味着它在后端的水平，大致可以理解为：

主路径能走通
主要问题也能大体看见
但和 GPT5.4、OP4.6 相比，在“精确到位”这一步上仍有差距

结合前后端两轮测试，佳宏对 Qwen 3.6 的总体评价是：
在国产模型里，它已经是最接近可用门槛的一档。

7. GLM5 与 Kimi 2.5：分析链路本身就跑偏了

这两家在后端任务中的问题，不只是方案粗暴，而是分析路径本身就没有走对。

佳宏的观察是：

它们没有充分意识到本地数据库里已经缓存了头像这件事
对代码仓库真实结构的理解不够透
给出的方案偏暴力
其中 Kimi 2.5 甚至把分析路径带到了测试代码，而不是实际问题所在的代码链路上

在一个大型真实项目里，这类问题意味着：
它不是“修得不够好”，而是根本没进入正确问题空间。

价格、时间与真实使用体验

1. 时间与成本不能脱离任务看

佳宏反复强调：
“哪个模型最好”没有脱离任务的统一答案。

在这次实测里可以看到很明显的取舍：

OP4.6：非常快，适合短平快任务
GPT5.4：更慢、更贵，但在复杂长任务上更值得
国产模型价格普遍便宜，尤其 MiniMax，其次是 Kimi 和 Qwen
但如果模型首轮结果偏差太大，需要反复补 prompt、反复返工，那么“便宜”未必真的便宜

主持人与佳宏也讨论到一个现实问题：
虽然 GPT 某些单价项目未必比 OP4.6 高很多，但由于它会跑更久、消耗更多 tokens，一个完整任务的总成本可能反而更高。
不过反过来说，如果 OP4.6 在某类复杂任务上无论怎么加 tokens 都达不到 GPT5.4 的质量，那只看单价也没有意义。

结论不是“谁更便宜”，而是“总投入换来的可用结果值不值”。

2. 不同模型的协作风格像不同的人

佳宏把不同模型的使用体验总结得很形象：

OP4.6：做事很快、很急、信心很足，像一个“向上管理高手”
GPT5.4 / Codex：更严谨，会逐条复核，会清楚告诉你哪里还没做到位

作为开发者，他明显更偏爱后者。
原因很简单：
开发者真正需要的不是一句“已经完成”，而是清楚知道“哪里还没完成”。

Agent、Prompt 与 Skill：真正的瓶颈开始转向人类侧

1. 对强模型的依赖已经出现

在主持人追问下，佳宏明确表示，自己已经对模型形成明显依赖。
他甚至说，自己最近大约 80% 的时间都在和 Codex 与各种 agent 打交道，并想写一篇题为“活在 agent 中的人”的文章。

这种依赖不是抽象概念，而是日常工作方式已经发生变化：

复杂任务交给 agent
与模型频繁协同
未来很多事情可能变成 agent 对 agent 的协调
比如约会面、排时间、确认冲突、自动安排

但他也做了区分：
他更难离开的是 GPT5.4 / Codex 这类长任务能力更强的系统，不是所有模型都具有同等替代性。

2. 真正的焦虑不再只是 token，而是“人会不会提需求”

佳宏提到，外界常把 AI 焦虑理解成“token 烧得太快”，但他自己的真实感受是：
真正的焦虑越来越来自人类自身——能不能写出高质量 prompt，能不能持续理解上下文，能不能给出正确决策。

他给出一个很重要的悖论：

Agent 让人看上去摆脱了很多细节
但如果人离一线细节太远
到了项目复杂起来的时候，人会开始听不懂 agent 在说什么
一旦听不懂，就无法给出正确判断
项目就会在原地打转

因此，Agent 时代并不是“人可以完全不懂细节了”，而是：
人必须学会在更高层面保持对复杂系统的理解与指挥能力。

3. Skill 是通用的，但强模型能极大降低沟通成本

围绕 skill 文档，讨论得出了一个非常实用的结论：

Skill 本身具有通用性
但面对强模型时，可以写得更短、更抽象、更高层
面对弱模型时，必须写得更细、更全、更不厌其烦

佳宏非常认同这一点，并把它视为强模型最大的现实价值之一：
和聪明模型不需要说太多话。

这件事为什么重要？
因为把一件事情事无巨细地写清楚，本身就是高成本脑力劳动。
如果模型越弱，人类就越要把大量精力花在补充说明上；
而模型越强，人类就越能把精力放在更关键的判断上。

4. 使用 Agent 的一个工程观变化

佳宏还谈到一个工作习惯上的变化：
一开始，人会很想亲自去改 agent 写出的笨代码；
但到后面会逐渐意识到，更重要的是让 agent 拥有完整上下文、修改历史和技能积累，让它在犯错中学习和沉淀。

这和传统组织管理很像：
不是所有错误都靠领导亲自下场修，而是让体系积累经验、形成能力。

对模型格局与未来演进的判断

1. 为什么他认为头部海外模型的优势会继续存在

这部分是佳宏基于一线使用经验给出的判断，不是经过独立验证的行业定论。
他的理由主要有三层。

第一，优秀模型会吸引优秀用户和高价值任务

他的看法很直接：
顶尖开发者、更复杂的编程任务，通常优先流向 GPT5.4 和 OP4.6。
这样一来，头部模型拿到的是更高质量、更复杂、更长序列的真实任务数据；而较弱模型拿到的往往是更普通的场景。

这会形成一种正反馈：
强模型吸引强用户，强用户又反过来给强模型喂更有价值的数据。

第二，头部模型正在进入“模型自训练”阶段

佳宏认为，GPT5.4 和 OP4.6 已经表现出更明显的模型自训练尝试。
相比普通用户只能提供 prompt 和文本反馈，模型厂商自己掌握的是：

全部生成轨迹
每一步输出过程
更底层的训练与注意力信息

这意味着，未来更可信的提升方向，很可能不是单靠人类海量写 prompt，而是模型自己训练自己。
至于坊间关于部分国产模型是否蒸馏海外模型的传言，他提到过，但也明确表示自己没有足够信息证实。

第三，从 60 分到 90 分不是线性投入，而是工业化重资产过程

他用一个比喻来说明这个差距：
很多人以为大模型只是从 2022、2023 年突然爆发，到今天时间还不长，好像大家都能追一追；
但在他看来，这更像是：

2023 年只是“第一辆福特汽车下线”
而现在已经是“宝马在公路上跑”

也就是说，模型训练已经不再只是单次实验，而是一条巨大的工业流水线。
从 0 做到 60 分、70 分，也许 6—8 个月还能实现；但从 70 分往 90 分爬，需要的是无止境的资源、数据、时间和工程体系。

2. 对下一轮技术跃升的判断

主持人最后问：2026 年海外头部模型还会不会再来一轮显著跃升？

佳宏的回答非常明确，甚至带有纠正意味：
“不是已经有了吗？这一轮显著跃升在他看来其实已经发生了。”

在此基础上，他进一步判断：

下一代模型还会继续增强
增量重点很可能体现在：
- 更强的长周期问题处理能力
- 更深的思考能力
- 逐步替代部分科研工作
如果模型的确定性继续提高，它对大量白领、文案类、知识型工作的替代也会更稳定、更直接

综合归纳

基于这次单一真实项目、统一测试流程下的实测，可以提炼出几条非常清晰的结论：

公开榜单越来越难反映真实开发差异。
真正重要的是摩擦成本、遗漏率、返工成本、可维护性，而不是只看任务是否“表面完成”。
前端任务里，多模态理解、UI 还原、自检能力决定上限。
在这次测试里，GPT5.4 前端综合最强，OP4.6 胜在速度，Gemini 多模态强但代码稳定性欠佳，Qwen 3.6 是国产里最接近可用门槛的一档。
后端任务里，真正拉开差距的是长序列分析、根因定位与方案优雅性。
在这次测试里，GPT5.4 整体最好，OP4.6 只差最后一层严谨性；国产模型中，Qwen 3.6 与 MiniMax 相对更值得关注，但前者更稳、后者在约束遵守和长期维护上风险更大。
“会修 bug”不等于“会做工程”。
很多模型能把眼前问题压下去，但会用粗暴方式破坏系统结构；而真实开发最怕的，恰恰是这种“今天修通、明天难维护”的方案。
强模型的现实价值，不只是答案更准，而是显著降低人类沟通成本。
模型越强，开发者越不需要把 prompt 和 skill 写到事无巨细；模型越弱，人类越要替它补齐大量上下文。
Agent 时代的瓶颈开始从模型侧部分转移到人类侧。
未来高效使用模型的人，未必是最会“点按钮”的人，而是最能提出高质量需求、持续理解复杂上下文、并在关键节点给出正确判断的人。

适用范围与需保留的边界

上述结论都建立在佳宏自己熟悉的真实项目、这次具体任务设定和当时的平台接入条件之上，不宜直接当作跨场景、跨项目的绝对排名。
部分 token、时间、成本数据是基于实际使用过程的统计或估算，佳宏也明确说过，并非所有平台都能拿到完整、严格一致的 coding plan 数据。
像 Qwen 3.6 在百炼平台上出现请求大小超限 这类问题，佳宏判断更像平台适配问题，不完全应归因于模型本身。
“只读调研时向仓库写报告”的问题，录音中明确提到有三个模型出现，主持人现场点到 Gemini 也在其中，但并未在后续逐一完整展开三者名单，因此只能做保守表述。
关于海外领先优势、自训练壁垒、国内模型蒸馏传言、未来替代科研或白领工作的判断，均属于佳宏基于一线经验给出的分析，不是经独立验证的行业共识。

导出设置

预览