导出设置

预览

原始内容首次渲染后会自动收起,仅在需要时展开查看。

2026-04-06 | Knowledge Planet (知识星球) | 一线开发者实测:主流大模型编程与多模态能力深度对比

类型: 详细摘要 模型: gpt-5.4 创建时间: 2026-04-06 10:51

核心判断

这次分享的出发点不是“谁在榜单上高几分”,而是“谁在真实开发里更省事、更少出错、更容易维护”。

佳宏认为,公开 Benchmark 的问题越来越明显:
主流模型分数往往只差 1—2 分,但这点差距很难帮助非重度用户理解模型在真实使用中的差别,甚至这几分本身也未必有足够代表性。真正影响开发体验的,不只是“任务是否完成”,而是:

  • 完成方式是否合理
  • 是否会遗漏关键细节
  • 是否需要大量返工
  • 是否给后续维护埋坑

他用“拆门”做比喻来说明这一点:
同样是“把门拆掉”,强模型像是用螺丝刀把门安静拆下、零件摆好;差一些的模型可能直接拿电锯锯掉。Benchmark 只看“门拆没拆掉”,但开发者真正关心的是:它有没有把螺丝丢满地、有没有把可维护性一起锯掉。

因此,在佳宏看来,强模型的定义不是只会把事情做完,而是能把事情“完整、少纰漏、低摩擦”地做完。


评测方法:为什么必须用自己熟悉的真实项目

佳宏没有采用公开题库,而是直接拿自己最近在做的真实项目来测。

原因很直接:只有在自己非常熟悉的项目里,开发者才能准确判断:

  • 模型给出的计划到底对不对
  • 改法到底好不好
  • 哪些是无伤大雅的小问题
  • 哪些会让项目后续维护成本暴涨

他选用的项目,是一个为自己服务的信息聚合产品:
自动抓取、整理海外 KOL 的关键信息,减少自己在中文互联网中反复消费二手消息、过时消息的时间成本。这个项目不仅有信息整理需求,也有明确的 UI 设计与美观要求,因此很适合拿来同时测试前端和后端能力。


测试设置与平台说明

以下模型/平台名称按录音转写与语境统一整理:Claude Code、Codex、GPT5.4、OP4.6、Gemini 3.1 Pro、GLM5、MiniMax 2.7、Kimi 2.5、Qwen 3.6。部分正式型号名称仍应以原始界面为准。

1. 前端测试任务

前端测试的目标是:
把真实页面及日期筛选、设置弹窗等多个状态截图后,交给 7 个模型,要求它们基于截图、上下文和明确技术栈说明,尽可能高保真复刻页面

这个任务重点考察:

  • 多模态理解能力
  • UI 理解能力
  • 指令跟随能力
  • 前端框架实现能力
  • 自我检查与继续 refine 的能力

佳宏的测试流程是统一的:

  • 给出同样的 prompt 和上下文
  • 让模型自己建项目骨架
  • 自己写代码、运行、调试、迭代
  • 再额外要求它对照截图继续 review 和 refine
  • 直到模型在没有人工干预的情况下,达到它自己能做到的最好状态

他的重点不是看“第一轮草稿”,而是看模型上限

2. 后端测试任务

后端测试来自一个真实 bug:
系统每天早上 8 点会给他发送前一日的 KOL 摘要邮件,但邮件里的头像显示异常。

他故意不先修这个 bug,而是把它拿来测试模型的后端能力。
这部分考察的不只是“会不会修”,而是:

  • 能否准确说明调试过程
  • 能否找到真正根因
  • 能否提出优雅、可维护的方案
  • 能否在大型代码仓库里稳定地沿着正确路径分析

3. 平台与中间层影响

不同模型的入口并不完全一致:

  • 多个国产模型通过 Claude Code 进行
  • GPT5.4Codex 上测试
  • Gemini 3.1 Pro 使用 Google 自家平台

主持人追问:中间层是不是会显著影响结果?
佳宏的回答是:会,但不是全部。

他提到,业内有一种经验性讨论是:
Agent 脚手架 / harness engineering / 原生框架,可能带来约 10 个点的性能增益。

但他同时强调,框架再重要,也不能替代基座模型本身的差异,尤其在长序列复杂任务上,底层能力差距仍然很明显。

他对平台的实际体感总结是:

  • Claude Code:交互便捷、短平快、非常跟手,更适合快速任务
  • Codex:更工程化、更 formal,在复杂长任务上更稳、更强

前端实测:多模态、UI 理解与高保真复刻能力

1. OP4.6:速度极快,但高保真和细节完成度仍有限

这是前端里最鲜明的一类选手:快,非常快。

  • 生成页面大约只要 3 分钟
  • 使用体验像有人在旁边实时结对编程
  • 5—10 分钟 这个时间窗口里,佳宏认为很难有模型做得比它更好

但它的问题也很明显:

  • 把 Next.js 的调试入口误识别成页面 UI 元素
  • 卡片效果、渐变色、排版细节都没完全还原
  • 时间线位置、筛选弹窗逻辑、局部样式都有偏差
  • 整体更像是“骨架做出来了”,而不是“页面被高保真复刻了”

佳宏对它的评价是:
如果目标是迅速起一个可运行的前端雏形,它非常强;但如果目标是复杂页面的精细复刻,它并不是最优解。

2. GLM5:看懂了大类场景,但没有真正做对任务

GLM5 的问题不是完全没产出,而是产出了一个“像那么回事”的错误答案

它大致识别出这是一个类似博客或信息展示页面,于是套出了一个相近方向的结构;但问题在于:

  • 原页面核心是 KOL 观点卡片与信息汇总
  • 它却把很多内容理解成了人物介绍
  • 真正关键的 card 结构、信息组织逻辑、设计表达都偏了

佳宏特别强调,这类错误对开发者最折磨:
因为表面上模型“做了东西”,但实际距离目标很远,修它的时间成本可能比重来还高

3. GPT5.4:前端综合能力最强,长任务优势明显,但时间和成本更高

这是佳宏在本次前端测试中评价最高的模型。

他给出的对比很直观:

  • GPT5.2 做类似页面,可能要 4 小时、消耗约 800 万 tokens
  • GPT5.4 则可能压缩到 不到 1 小时、约 200 万—300 万 tokens

在结果上,GPT5.4 的页面复刻质量明显更高:

  • 下拉框设计、颜色风格、整体排版更接近原稿
  • 复刻程度肉眼可见地领先于其他模型
  • 但依然存在小 bug 与局部偏差,比如:
    • 点击外围无法自动收起
    • 某些地方只能单选
    • 设置弹窗位置不对
    • card 的排布与细小加粗风格没有完全跟上

尽管如此,佳宏仍然给出了非常明确的判断:
在这次项目和测试设定下,GPT5.4 是前端复杂长任务里最强的模型。

他同时强调一个很关键的工程现实:
编程任务的难度不是线性上升,而是后半段呈指数级变难。
从 0 做到 80 分,和从 80 分抠到 100 分,时间复杂度完全不是一个量级。

4. MiniMax 2.7:前端短板明显,关键原因是多模态不足

MiniMax 在这个前端任务中的表现很弱,佳宏的结论也非常直接:

  • 没有足够的多模态能力,前端复刻基本无从谈起
  • 即便借助外部 OCR 管道把图片转成文字,也无法补足排版、层次、风格这些关键信息
  • 连前端框架的基本使用都出现了问题

因此,他把一个判断说得很明确:
如果模型不具备足够的多模态能力,它的编程能力很难在前端场景里真正体现,更多只能在后端文本类任务里发挥。

5. Gemini 3.1 Pro:多模态理解强,但代码稳定性与可维护性不够

Gemini 在“看懂页面”这件事上表现不错:

  • 多模态能力强
  • 能较好复制截图中的文字与布局信息
  • 整体视觉效果比很多国产模型更接近目标

但佳宏对它的代码质量评价不高,问题主要集中在:

  • 页面会异常刷新
  • 存在 bug
  • 一些功能虽然看起来做了,但并不稳定
  • 放到更大、更长期维护的代码库里,会让人不放心

因此它呈现出一种很典型的特征:
看图能力强,实现层的稳定性和工程质量不够。

6. Kimi 2.5:比 GLM5 稍好,但明显偏模板化

Kimi 至少保留了一些 card 的感觉,没有像 GLM5 那样完全做偏类型。
但佳宏认为,它更像是从已有模板库中抽出了一个相近样式,而不是真正理解了需求。

他对 Kimi 的判断是:

  • 形式上比 GLM5 更接近目标
  • 但本质上仍然是在“套模板”
  • 对用户意图的跟随不够深
  • 更像一个熟练应付考试题的学生,而不是一个真正理解设计意图的协作者

7. Qwen 3.6:国产模型里最接近“可用门槛”的前端选手

这是本次前端实测里,国产模型中最让佳宏感到意外的一家。

他的核心感受是:
Qwen 3.6 是一众国产模型里,少数真正“跟得上意图”的。

具体表现包括:

  • 在没有把 prompt 写到极度细碎的情况下,也能大体理解要做什么
  • 相比 GLM5、Kimi、MiniMax,它更像是在认真完成“复刻这个页面”这件事
  • 在前端任务中,它表现出了比较强的自检意识,会大量调用 Playwright 去检查页面排版和实现情况

但它距离 GPT5.4 和 OP4.6 仍有明显差距,主要问题是:

  • 细节错误较多,例如日期都可能复制错
  • 悬浮窗、局部交互和布局仍然不到位
  • 工具调用稳定性和整体编码质量还不够成熟
  • 想把它修到 GPT 或 Gemini 的首轮水平,开发者可能还要多发 5—10 轮 prompt,再投入 3—5 小时

佳宏给出的结论很鲜明:
在这次前端实测里,Qwen 3.6 是国产模型中最有“国产替代可用感”的一个。
他甚至直说,如果海外模型完全不能用,自己会转向 Qwen 3.6。

8. 前端测试的一个核心发现

经过这一轮前端实测,佳宏反复强调的不是单点胜负,而是一个更普遍的规律:

前端任务里,多模态能力、意图理解能力、自检能力,往往比“单纯会写代码”更重要。
因为很多设计细节、交互意图、风格要求,本来就很难通过文字完整表达。
真正强的模型,应该能靠截图、上下文和少量提示,把大量“说不出来的东西”补齐。


后端实测:根因定位、方案优雅性与长序列稳定性

1. 测试问题本身

这个 bug 的现象很简单:
邮件日报里的头像显示不出来。

但佳宏强调,这个题的难点不在“看懂表象”,而在“沿着正确链路找出真正根因,并给出优雅修法”。

实际根因是:

  • 邮件里用的是公网头像 URL
  • 手机端不挂代理就访问不了
  • 但系统本地数据库里其实已经缓存了 KOL 头像
  • 正确思路应该是:邮件改用本地服务提供的头像地址
  • 而且头像 URL 还带有版本参数 -v
  • 这个参数如果漏掉,会让后续维护与运行继续出问题

佳宏把这个问题拆成了几个层次:

  1. 看到“头像坏了”只是最表面的现象
  2. 找到“公网 URL 不可达”才算定位到根因
  3. 能进一步发现“本地数据库已有缓存头像”
  4. 最后还能注意到 -v 版本参数,才接近满分答案

而这一切,发生在一个大约 5 万行代码、数百文件夹 的真实仓库里。

2. GPT5.4:后端综合能力最强

在后端 bug 排查中,GPT5.4 依然是佳宏给出的第一名。

它基本完成了所有关键层级:

  • 找对了邮件流程和相关代码位置
  • 找到了根因
  • 提出了正确修复方向
  • 识别到了 -v 这个关键版本参数

佳宏对它的评价是:
在长序列复杂任务里,GPT5.4 的整体能力最强。

它的问题主要不是方向错,而是有时表述比较绝对,但这在他看来属于小问题,不影响总体判断。

3. OP4.6:很强,但少了关键一环

OP4.6 在后端任务上也很强,主要短板是:

  • 没有识别到 -v 参数

这意味着它虽然方向基本对了,但还需要再多一轮人类介入测试与反馈。
佳宏专门解释了为什么这不是小事:

在这类需要真实发邮件、等待结果、人工确认的任务里,
哪怕只差这样一个点,也会让开发者多花 10—20 分钟,甚至更多。

所以 OP4.6 在后端并不是“不会”,而是:
它足够强,但还不够严谨到一次到位。

4. MiniMax 2.7:后端分析能力不错,但方案偏暴力,且长序列约束风险明显

MiniMax 在后端的表现,比前端好得多,这也是佳宏觉得比较惊讶的地方。

它的优点是:

  • 文本分析能力不错
  • 长任务里的分析结果有一定质量
  • 反应也比较快

但它有两个非常关键的问题。

第一,修法不够优雅
它倾向于建议后端放宽对 -v 的校验,以尽快把 bug 修过去。
这类方案短期有效,但会破坏系统的长期严谨性和可维护性。
在佳宏看来,这种修法就像为了图省事,把本来应该精修的结构直接改粗放了。

第二,长序列任务里的约束记忆不稳
在这次后端“只读调研”的设定下,佳宏明确要求模型不要改动仓库内容,只做调研分析。
但录音中提到,有三个模型仍然把调研报告直接写进了仓库根目录,这被他视为非常严重的问题;主持人当场还插话确认,Gemini 也在被批评之列
MiniMax 是其中被佳宏重点展开讨论的一例。

这类错误为什么严重?
因为它说明模型在长步骤过程中会忘掉关键限制条件。
在真实开发里,这不是“小毛病”,而是可能破坏仓库、污染工作流、制造额外清理成本的风险点

因此,佳宏对 MiniMax 的结论是:
后端分析能力值得注意,但权限、约束和长期维护风险必须严防。

5. Gemini 3.1 Pro:能看出问题,但方案不够工程化

Gemini 在后端不是完全没找对方向,但给出的方案同样偏粗糙。
佳宏的核心批评点不是“它看不出 bug”,而是:

  • 它的方案对长期维护不友好
  • 放到成熟代码库里,会让系统越修越难维护
  • 在工程性上,明显不如 GPT5.4 和 OP4.6

加上前面提到的“只读调研任务中仍向仓库写报告”的问题,Gemini 在真实协作环境中的可信度就会被进一步打折。

6. Qwen 3.6:国产模型里整体最稳,但关键细节仍差一层

Qwen 3.6 在后端整体上依然是国产模型中较好的一个。
它的问题不是完全没看懂,而是没看到最关键的最后一层细节

  • 它没有意识到头像 URL 里还需要 -v 参数
  • 因此最终方案仍然不够完整

这意味着它在后端的水平,大致可以理解为:

  • 主路径能走通
  • 主要问题也能大体看见
  • 但和 GPT5.4、OP4.6 相比,在“精确到位”这一步上仍有差距

结合前后端两轮测试,佳宏对 Qwen 3.6 的总体评价是:
在国产模型里,它已经是最接近可用门槛的一档。

7. GLM5 与 Kimi 2.5:分析链路本身就跑偏了

这两家在后端任务中的问题,不只是方案粗暴,而是分析路径本身就没有走对

佳宏的观察是:

  • 它们没有充分意识到本地数据库里已经缓存了头像这件事
  • 对代码仓库真实结构的理解不够透
  • 给出的方案偏暴力
  • 其中 Kimi 2.5 甚至把分析路径带到了测试代码,而不是实际问题所在的代码链路上

在一个大型真实项目里,这类问题意味着:
它不是“修得不够好”,而是根本没进入正确问题空间。


价格、时间与真实使用体验

1. 时间与成本不能脱离任务看

佳宏反复强调:
“哪个模型最好”没有脱离任务的统一答案。

在这次实测里可以看到很明显的取舍:

  • OP4.6:非常快,适合短平快任务
  • GPT5.4:更慢、更贵,但在复杂长任务上更值得
  • 国产模型价格普遍便宜,尤其 MiniMax,其次是 KimiQwen
  • 但如果模型首轮结果偏差太大,需要反复补 prompt、反复返工,那么“便宜”未必真的便宜

主持人与佳宏也讨论到一个现实问题:
虽然 GPT 某些单价项目未必比 OP4.6 高很多,但由于它会跑更久、消耗更多 tokens,一个完整任务的总成本可能反而更高
不过反过来说,如果 OP4.6 在某类复杂任务上无论怎么加 tokens 都达不到 GPT5.4 的质量,那只看单价也没有意义。

结论不是“谁更便宜”,而是“总投入换来的可用结果值不值”。

2. 不同模型的协作风格像不同的人

佳宏把不同模型的使用体验总结得很形象:

  • OP4.6:做事很快、很急、信心很足,像一个“向上管理高手”
  • GPT5.4 / Codex:更严谨,会逐条复核,会清楚告诉你哪里还没做到位

作为开发者,他明显更偏爱后者。
原因很简单:
开发者真正需要的不是一句“已经完成”,而是清楚知道“哪里还没完成”。


Agent、Prompt 与 Skill:真正的瓶颈开始转向人类侧

1. 对强模型的依赖已经出现

在主持人追问下,佳宏明确表示,自己已经对模型形成明显依赖。
他甚至说,自己最近大约 80% 的时间都在和 Codex 与各种 agent 打交道,并想写一篇题为“活在 agent 中的人”的文章。

这种依赖不是抽象概念,而是日常工作方式已经发生变化:

  • 复杂任务交给 agent
  • 与模型频繁协同
  • 未来很多事情可能变成 agent 对 agent 的协调
    比如约会面、排时间、确认冲突、自动安排

但他也做了区分:
他更难离开的是 GPT5.4 / Codex 这类长任务能力更强的系统,不是所有模型都具有同等替代性。

2. 真正的焦虑不再只是 token,而是“人会不会提需求”

佳宏提到,外界常把 AI 焦虑理解成“token 烧得太快”,但他自己的真实感受是:
真正的焦虑越来越来自人类自身——能不能写出高质量 prompt,能不能持续理解上下文,能不能给出正确决策。

他给出一个很重要的悖论:

  • Agent 让人看上去摆脱了很多细节
  • 但如果人离一线细节太远
  • 到了项目复杂起来的时候,人会开始听不懂 agent 在说什么
  • 一旦听不懂,就无法给出正确判断
  • 项目就会在原地打转

因此,Agent 时代并不是“人可以完全不懂细节了”,而是:
人必须学会在更高层面保持对复杂系统的理解与指挥能力。

3. Skill 是通用的,但强模型能极大降低沟通成本

围绕 skill 文档,讨论得出了一个非常实用的结论:

  • Skill 本身具有通用性
  • 但面对强模型时,可以写得更短、更抽象、更高层
  • 面对弱模型时,必须写得更细、更全、更不厌其烦

佳宏非常认同这一点,并把它视为强模型最大的现实价值之一:
和聪明模型不需要说太多话。

这件事为什么重要?
因为把一件事情事无巨细地写清楚,本身就是高成本脑力劳动。
如果模型越弱,人类就越要把大量精力花在补充说明上;
而模型越强,人类就越能把精力放在更关键的判断上。

4. 使用 Agent 的一个工程观变化

佳宏还谈到一个工作习惯上的变化:
一开始,人会很想亲自去改 agent 写出的笨代码;
但到后面会逐渐意识到,更重要的是让 agent 拥有完整上下文、修改历史和技能积累,让它在犯错中学习和沉淀。

这和传统组织管理很像:
不是所有错误都靠领导亲自下场修,而是让体系积累经验、形成能力。


对模型格局与未来演进的判断

1. 为什么他认为头部海外模型的优势会继续存在

这部分是佳宏基于一线使用经验给出的判断,不是经过独立验证的行业定论。
他的理由主要有三层。

第一,优秀模型会吸引优秀用户和高价值任务

他的看法很直接:
顶尖开发者、更复杂的编程任务,通常优先流向 GPT5.4 和 OP4.6。
这样一来,头部模型拿到的是更高质量、更复杂、更长序列的真实任务数据;而较弱模型拿到的往往是更普通的场景。

这会形成一种正反馈:
强模型吸引强用户,强用户又反过来给强模型喂更有价值的数据。

第二,头部模型正在进入“模型自训练”阶段

佳宏认为,GPT5.4 和 OP4.6 已经表现出更明显的模型自训练尝试。
相比普通用户只能提供 prompt 和文本反馈,模型厂商自己掌握的是:

  • 全部生成轨迹
  • 每一步输出过程
  • 更底层的训练与注意力信息

这意味着,未来更可信的提升方向,很可能不是单靠人类海量写 prompt,而是模型自己训练自己
至于坊间关于部分国产模型是否蒸馏海外模型的传言,他提到过,但也明确表示自己没有足够信息证实

第三,从 60 分到 90 分不是线性投入,而是工业化重资产过程

他用一个比喻来说明这个差距:
很多人以为大模型只是从 2022、2023 年突然爆发,到今天时间还不长,好像大家都能追一追;
但在他看来,这更像是:

  • 2023 年只是“第一辆福特汽车下线”
  • 而现在已经是“宝马在公路上跑”

也就是说,模型训练已经不再只是单次实验,而是一条巨大的工业流水线。
从 0 做到 60 分、70 分,也许 6—8 个月还能实现;但从 70 分往 90 分爬,需要的是无止境的资源、数据、时间和工程体系。

2. 对下一轮技术跃升的判断

主持人最后问:2026 年海外头部模型还会不会再来一轮显著跃升?

佳宏的回答非常明确,甚至带有纠正意味:
“不是已经有了吗?这一轮显著跃升在他看来其实已经发生了。”

在此基础上,他进一步判断:

  • 下一代模型还会继续增强
  • 增量重点很可能体现在:
    • 更强的长周期问题处理能力
    • 更深的思考能力
    • 逐步替代部分科研工作
  • 如果模型的确定性继续提高,它对大量白领、文案类、知识型工作的替代也会更稳定、更直接

综合归纳

基于这次单一真实项目、统一测试流程下的实测,可以提炼出几条非常清晰的结论:

  1. 公开榜单越来越难反映真实开发差异。
    真正重要的是摩擦成本、遗漏率、返工成本、可维护性,而不是只看任务是否“表面完成”。

  2. 前端任务里,多模态理解、UI 还原、自检能力决定上限。
    在这次测试里,GPT5.4 前端综合最强,OP4.6 胜在速度,Gemini 多模态强但代码稳定性欠佳,Qwen 3.6 是国产里最接近可用门槛的一档。

  3. 后端任务里,真正拉开差距的是长序列分析、根因定位与方案优雅性。
    在这次测试里,GPT5.4 整体最好,OP4.6 只差最后一层严谨性;国产模型中,Qwen 3.6 与 MiniMax 相对更值得关注,但前者更稳、后者在约束遵守和长期维护上风险更大。

  4. “会修 bug”不等于“会做工程”。
    很多模型能把眼前问题压下去,但会用粗暴方式破坏系统结构;而真实开发最怕的,恰恰是这种“今天修通、明天难维护”的方案。

  5. 强模型的现实价值,不只是答案更准,而是显著降低人类沟通成本。
    模型越强,开发者越不需要把 prompt 和 skill 写到事无巨细;模型越弱,人类越要替它补齐大量上下文。

  6. Agent 时代的瓶颈开始从模型侧部分转移到人类侧。
    未来高效使用模型的人,未必是最会“点按钮”的人,而是最能提出高质量需求、持续理解复杂上下文、并在关键节点给出正确判断的人。


适用范围与需保留的边界

  • 上述结论都建立在佳宏自己熟悉的真实项目、这次具体任务设定和当时的平台接入条件之上,不宜直接当作跨场景、跨项目的绝对排名。
  • 部分 token、时间、成本数据是基于实际使用过程的统计或估算,佳宏也明确说过,并非所有平台都能拿到完整、严格一致的 coding plan 数据。
  • Qwen 3.6 在百炼平台上出现请求大小超限 这类问题,佳宏判断更像平台适配问题,不完全应归因于模型本身。
  • “只读调研时向仓库写报告”的问题,录音中明确提到有三个模型出现,主持人现场点到 Gemini 也在其中,但并未在后续逐一完整展开三者名单,因此只能做保守表述。
  • 关于海外领先优势、自训练壁垒、国内模型蒸馏传言、未来替代科研或白领工作的判断,均属于佳宏基于一线经验给出的分析,不是经独立验证的行业共识。