2026-04-06 | Knowledge Planet (知识星球) | 一线开发者实测:主流大模型编程与多模态能力深度对比
一线开发者深度实测:主流大模型编程与多模态能力的真实表现与benchmark局限剖析
原文
# 一线开发者对比模型编程能力260406 发言人100:00:00 本音频为知识星球前沿信息收录,内部学习资料禁止外传。更多投研资料请加微信,FCCNN88. ## 发言人 2 00:00:10 in Benchmark 方向,然后也发表了一些相关的顶会工作。但是 Benchmark 现在众所周知它有一个问题,就是啊它有点失效,就大家看一些公开的榜单,包括各种各种各样现在模型一发布,它就会 release 一个榜单嘛。呃,它它其实大家分数都很相近了,可能差一两个点,然后这一两个点就会落到一个很实际的问题上,就是对于没有在大量使用这些模型的这个呃外面外面的用户来说,他其实很难理解除了这两个点它的差距,或者说它有什么不同。甚至这两个点本身可能也没有代表什么。 ## 发言人 2 00:00:47 那么举一个具体生活中的例子,就是这个其实很常见啊,呃,其实对于不同模型来说,比如说我们给它一个任务是比如说我要拆掉这个门,那么有的模型它可能。就是拿个螺丝刀把门安安静静的拆好,然后把所有东西都规整好,这是比较强大的模型。然后呢有的有有有的有的那个模型呢,他可能拿个电锯就把门锯掉了。然后最后这些 benchmark 的测评,它就是看你门有没有被拆掉,那这两个模型都把门拆掉了,但是你能呃就这 benchmark 它就没有判断没有办法判断出来他哪种方式拆掉这个门是呃更合理的。其实对于我们真正在使用的开发者而言,啊,像第二种那样拆掉门的方式其实是不可以接受的,那个其实就是不呃不可以接受的一个方式了。那么具体这样的现象表现就在于我们真实开发体验中的一个摩擦。 ## 发言人 2 00:01:43 呃,那比如说举个例子是,还是拆掉这个门的例子吧,呃,其实对于拆掉这个门来说,他丢掉任何一个螺丝钉让我们是是,我们在事后把这个螺丝钉找到,然后告诉他你丢了一个螺丝钉,这个消耗的时间和。精力是非常非常大的。所以如果什么是一个强大的模型,强大的模型它就是呃它可以完整的完成这个工作,但是纰漏越少越好,问题越少越好,这个是非常非常重要的。那么回到我们具体的这个代码场景啊,我们代码现在一般呃偏向业务或者说成熟一点是分成前端和后端,那么前端呢就是偏向给用户展示的这个界面,比如说大家常用的一些网页。或者说手机上使用的这个 APP 那 --- 那么后端呢主要就是处理一些业务逻辑和这种呃服务的这个进程之类的。 ## 发言人 2 00:02:35 那么呃前前端和后端呢,它这样的一个测评,核心就是呃结合上面 Benchmark 失效的这样的一个问题,就是测评呃就是测评榜单失效的问题。他一个核心的事情就是你其实只有我自己的项目,我才能清晰的判断出来呃这个模型他现在修改他的这个,他给出的这个计划,他是对是错,他是好是坏。那么出于这样。的这个情况呢,其实我呃首席跟我说呃让我思考一下这个事情,我就思考良久。啊,然后我我我我我就想到说,那其实只能是以一个我非常自己非常了解的项目。为开始,然后让不同模型在这个项目上进行一些呃操作,或者说进行一些实验,然后看不同模型的这个变化,我才能非常有深刻体会和深刻认知的知道它它们的不同在哪里。所以我就基于我自己最近在做的一个小项目,然后呃进行了这个测评。 ## 发言人 2 00:03:33 那么这个项目它的一个动机是在于说,呃,我每天在中文互联网上,呃,我是这个大模型上相关的这个毕竟是 PhD 在读博嘛,然后对这些讯息也是非常敏感。然后在简中互联网上,我每天在吃各种各样的二手消息,然后不及时的消息我也觉得这个太落后了,我要自己说,我自己可不可以就是 web coding 出来一个呃可以把 KOL 的这个海外这个最牛的 KOL 的这个讯息每天。汇总好,然后发给我。 ## 发言人 2 00:04:02 那么这个就减少我的很多时间成本和这个搜索信息的成本,那么就做出来这个。当然我这个人,我我这个人对于这个整体的这个设计和美学还是有一定要求的,所以在很多地方做了一些呃比较细致的设计,比如像这些。那么对于我们当前这个测评任务来说呢,我就想说,哎那对于我实际开发过程中的一个开发场景,我经常的操作对于前端来说就是,我可能给他截个图,我在这截图说,OK这个地方我看着不美观。然后我希望它变成什么样子,你能帮我做到这个样子。所以呃就是对于UI的理解,对于这个多模态能力,啊,还有对于指令追随能力来说,对于模型在实际的开发体验过程中是非常非常重要的。所以我就设计了这样的一个小任务是呃我们可以继续看,就是我们,我我我尝试把这个页面,我们做好的这个页。页面截图,啊,还有这几个筛选日期的功能,还有设设置的功能,都截图,啊,截图下来,然后提供给这七个我们在测评的7个不同的模型。然后呃我我我们就 --- 是说你尽可能的去高保真复刻当前这个前端页面,然后下面就是一些具体的这个任务的细节了,然后尽可能写的详细,技术栈这些都讲的非常详细了。 ## 发言人 2 00:05:26 那么也就是说他理应就是有这些截图,有这些能力,然后根据他多模态能力,啊,使用 next 点 js 这样的前端框架,然后去尽可能把这个页面实现高保真出来。那么整整个的一个测试流程呢,就是我们对于呃我们可以先看一下这块,我们对于这个 cloud GLM5 Minimax2.7 Kimi2.5千门3. ## 发言人 2 00:05:54 6 plus 我们都是在这个 cloud code 上进行的。都是一样的实验操作。呃呃,这个大家可以放心,我。我是本身就是做半程码,也是搞研究的,这个还是比较严谨的。然后 JLM 呃,GPT5. ## 发言人 2 00:06:06 4呢,它是这个我们在 Codex 上做,就是有,如果有原生平台,我就会在原生平台做,这样更好发生它,发挥它能力嘛。然后 Gemini3.1 Pro 呢,我是在那个 Google 自 Google 自己的这个 anti gravity 上运行的,所以说这些主流模型基本都呃都尝试了一遍。 ## 发言人100:06:23 哎,佳宏,我这个地方稍微打断一下,因为你给我们介绍,就是说你在测不同模型的时候,你这个入口是不一样的,对吧?你刚刚说有几个模型你是通过这个 cloud code 进去的,然后谷歌可能是 anti gravity 然后 GPT你是通过 Codex 嘛,因为这个我就想到上周有一个特别火的这个事件,大家都有关注到。就是说这个 cloud code 的这个源代码进行泄露嘛,但 cloud code 本身它其实可能是在模型跟用户之间的一个中间层,那就像你在测试这样子的任务的过程当中,你觉得这个中间层的能力重要吗?还是更多的是它模型背后的技术能力重要?去支持。 ## 发言人 2 00:07:01 啊,这个是很好的一个问题啊。呃,这个最近有,就是这个应该比较火爆的是在去年,呃,今年二三月份的一个讨论呢,就是 agents 小手架框架 harness 的能力,呃,对于 agent 的性能提升大概 --- 是在至少有10个点的这个影响。就如果是原生的框架会有10个点的影响。然后呃我也跟很多这个开发者和同学讨论过,呃。可以给,我可以把这个拉过来吧。这比如说是我现在在用的 Codex 吧,然后呃这是 Codex,Codex 的设计跟,啊,当然我这个用的是桌面端的,那是左左边是 cloud code 右边是 Codex。 ## 发言人 2 00:07:45 cloud code 是呃 cloud code 它是明显,就你在交互上,它的命令,它的很多设计,你都会感觉它很便捷,它很快速,这个对于开发体验是好很多的。另外一点就是。cloud code 它整个设计上,你会感觉它它是做短平快任务为主。然后 Codex 它的设计是啊就比较工科化,比较 formal 的,就比较怎么讲这个话,呃,就比较一板一眼的那种感觉,但它做长长长序列任务比如说你有一个非常复杂的任务交给 Codex 那他感觉会表现的更好。所以这个他们设计上还有他们跟模型的契合上其实呃确实有不同的感觉,然后这个感觉的话就它相对来说比较模糊和抽象一点了,这是我使用经验的一个呃高度的,这个比较抽象的总结吧。 ## 发言人100:08:37 明白,所以您感觉就是你刚刚说你测那几个国产的模型,你你是用 cloud code 的前端进入的,还是说用那个 Kimi 然后他们自自带的那个前端? ## 发言人200:08:48 可其实其实现在的默认大家都是走 cloud code 哦. ## 发言人100:08:53 都走 cloud code,OK 所以,然后你刚刚有有分享,就是说可能呃这个 cloud code也好,就这个这个好。harness engineering 可能能够增强模型的效果10%左右。 ## 发言人200:09:04 对对,OK好,前面有一段讨论的。 --- 发言人100:09:07 好的好的,谢谢。嗯。 ## 发言人 2 00:09:08 那你继续。好,那我继续了。然后我们回到这个测评的流程,因为这个其实相对来说枯燥一点,但是我简单跟大家讲一下,然后呃方便这个大家理解我是怎么做这个事情,因为出于严谨和科研的角度。那么首先我们会把同样的这个 prompt 和上下文发给他,然后然后模型这个时候就会自己分析截图,然后他会整个新建这个项目的骨架,我们会要求他在一个子文件夹里面去进行所有这些操作。然后他会编写代码,运行调试,这个都是他自己的迭代步骤,然后直到我我会发这一句话,为了我们,因为我期待的是说我要测评到他的这个对于前端或者对于这个框架,然后对于多模态的能力的最强点,所以我会我会发这句话,就是说呃你再 review一下这个截图跟你现在实现出来的框架是否高保真,或者说非常相近,如果不一样你可以再 refine。直到你觉得你已经完成了所有细节,就是说直到这个模型已经达到它我非人,我没有人工干预情况下,它达到最好的这个能力能力范围。那么我们就进入到这个比较有意思的环节了,就是这个其实哈,这个事我想过很久,就是怎么怎么清晰的让其其实这个事情对我来说也有点不清晰,就是对于不同模型能啊能力而言。我们其实也很难说它到底到什么地方。 ## 发言人 2 00:10:28 然后我展示出来这个这个这个这个实验小实验呢,其实也只是就是一个一个方面啊,一个视角吧。然后那可以看一下右边这个 UI 是,就是左边这个 UI 是我自己设计出来,我花了非常多时间和精力去抠了每很多细节和这个设计的方式风格。然后设计出来的一个版面,然后比如说大家其实接触 Web coding 很常见就是我看这个很好,我也想要这个,你把它做出来,这是大家非常常见的一个方式或者说思路。思路,包括我实现的时候很多时候也是这样的,借鉴别人的很成功的一些设计。那么呃那右边呢就是这个就是 OPS4.6这是 cloud 现在最先进的模型,它我我我让它接受,我让它去复刻这个页面,它复刻出来的结果。嗯。 ## 发言人100:11:18 然后我们明白,就是你在复刻之前,你把左边的这个真实的产品进行了截图,然后包括这个真实的产品当中,因为像这个日期啊,然后筛选啊,都有一些下拉的功能,所以其实你把这些每个功能的 --- 这个这个你也再次,对吧,就再次的这样子的截图,然后相当于我可能扔了这个呢5~7个图片给到这个 cloud code 跟他说你帮我复刻一个这样子的系统。 发言人 2 00:11:43 是的是的,啊,这些是主要是对,非非常清楚。 发言人100:11:46 我我就这么做的。那我们来看一下这个第一个就是 cloud code 首先先说一下 cloud code 它生成这个需要多长时间? 发言人 2 00:11:54 好,这个 cloud code生成这个页面其实非常快,大概就是3分钟左右。嗯,它非常,就是你用 cloud. 包括你会感觉他非常跟手,他就跟你在旁边 peer code pop up一起工作。 发言人100:12:03 那代码的长度呢?跟你自己源代码的长度比较呢? 发言人200:12:07 啊,这个肯定没法比,哦,不是一个量级的。 发言人100:12:10 就相对它会更加简洁。 发言人 2 00:12:12 就是啊这个就是太,这个实际上就很多很多代码,它不是一,啊,对,所以这个就是没有,它只是复现这几个功能,它很多方面它不用去考虑,其实还有很多其他的设计,或者说其他很多逻辑在背 --- 后。明白,然后呃对于右侧这个 colorcode 的这个我们可以对比一下,就比如说呃有几个点,比如说这个 n 呢,是其实是 nextjs 这个框架的一个调试的一个小入口。这个东西截图,其实你会期待一个非常智智能的模型,它不会把这个认为它是前端界面的一个 UI 因为它,你明确说这是 nextjs 框架,但是它这边还是出现这个 n 了,然后后面我们会看到有一些矿,有一些模型呢,它多模态能力很强,呃,准确说就是 GPT4和 Gemini3. ## 发言人200:12:59 1他多模态能力很强,他就不会有这个问题,他就不会出现这个人,他会自动忽略掉。包括版式上我们也会发,也会发现他有很多问题啊。他的这个 card 基本就是没有做出来这个效果,然后渐变色也没有做出来,然后卡片的内容呢,也没有高高度复刻,对,然后下面时间线也没有做。然后这个筛选这个的出现的位置,这个逻辑是有问题的,对吧?就是嗯我正常筛选是应该出现在下面,这是个正常的一个没有 bug 的一个操作。啊,他是有时间线的,只不过他是哦他是有时间线,他是放在旁边的,我这个说错了,明白。然后这个日期是他是这样选择弹窗弹出来的,跟我的这个这个方式也是不太一样,嗯,对,因为他这个弹窗会把后面弄成阴影,会遮挡很多,但是就是总体上而言只能说呃框架是有的,样子呢有个六成七成,大家可能凭借各自的。大家自己的这个呃感觉可以感受一下,但是很多细节呢还是很不到位。这是 cloud但它很快,但它很快。 ## 发言人100:14:08 就你刚刚说大概就几分钟它就生成了。 ## 发言人 2 00:14:11 对,就如果说我有一个事情我希望他很快去完成,那我会选择 clock code 就是他又快,在这快的时间内,在5分钟、10分钟这个时间内,没有人能比他做的更好。 ## 发言人100:14:23 嗯,明白,所以他一个是速度快,另外一个他其实也具备一定的这个多模态能力,因为基本上他看懂了你左边的这个真实的系统的一个一个一个这种呃呈现的方式,然后呈现的内容。然后包括你刚刚说的几个这个这个日期啊,筛选也好。是的是的,对,但就是可能在细节的这个呃这个这个编写 --- 上,它它还没有那么的准确。 ## 发言人 2 00:14:46 是的是的是的,就是很多细节它还是不到位,明白。然后我们来看第二个是GLM5,然后我们来看GLM5的效果,国产模型各有各的特色,哼,GLM5,他就做的。啊,就有点有点对不上了,对吧?呃,我们会发现。 ## 发言人100:15:05 明白,就他基本上他这个 UI 跟你也不太一样,就是说他他有点像,就是实现了这个,他可能看懂了你是一个类似博客这种类型的一个页面,对吧?所以他可能背后套了一个博客类似的这种这种模板,但是实际上你的设计这些他都没有。 ## 发言人 2 00:15:22 对的,就是这个是可以,我我可以稍微就讲一点我的感受吧,就是呃尤其编程到一些比较细致细微的地方,其实编程最难的是地方是什么?编程地,最难的一些地方是有一些代码和有一些你想要实现的东西,你没有办法用语言表达出来,你很难用语言表达。嗯,就是你写 prompt本身这件事情就不容易,你很难把一个我相信大家,那就很多嘉宾都是领导嘛,呃,各位领导如果想把一件事情事无巨细的全部,哎。这个安排的非常清晰,讲的非常全面,其实是非常累的一件事情,非常不容易。嗯,对。 ## 发言人100:16:07 所以智能的模型它能够理解,不智能的模型它可能就只能理解你50%对。 ## 发言人 2 00:16:12 一个好的秘书可能一个眼神他就明白,对吧上下文要做什么了,这个就是我们期待一个好的模型他能做到的一个地步。那么呃这块就作为国产模型的对比,就是我说你要复刻这个页面,复刻这个框架,OK他他也做了一个类似的东西出来,你也不能说他没有做到。但是实际上他做的东西并没有什么关系,啊,或者说这个做的就比较偏差比较大,比如说他像这些 KOL 的名字,但实际上我这边是 --- card 呀,我下面是总结和他的一个近期发言的这个汇总啊。他这个就完全没有了。 发言人100:16:46 哦,就他这个地方变成了这个 KOL 的一个一个呃人人物背,人物角色的一个介绍,就他可能他可能以为,哦,这个很有意思,因为你左边你左边放的就你真实的系统其实是这个。KOL他的观点的一个总结,但是右边这个模型它识别出来了,它以为这个文字是这个人物的介绍。 发言人 2 00:17:08 是的。 发言人100:17:08 这个差距对,所以那基本上这个逻辑关系它就看错了。 发言人 2 00:17:12 对,然后如果说我要我作为开发者,我要在右边这个系统上打磨到左边这个的程度,我投入的时间和精力。 发言人100:17:21 基本得重来。 发言人 2 00:17:22 哎呀,都不是重来的,我都不知道要花多少时间精力在上面。呵,明白,就我,因为这些地方我没有办法跟他讲我想要什么效果,讲不清楚,理解。我比如说我上面要什么 card 我要什么渐变效果,我希望怎么样的悬浮,什么样的这种精致的这种 icon 这些。 发言人100:17:39 --- 这这都很难去讲,这都还是细节了,就他基本的他可能只看懂了你是一个有几个人物头像的一个这种博客,然后其他的关联关系他没有看懂。 ## 发言人 2 00:17:50 对对,就是他基本的这个事他可能都没有做的非非常,明白明白,好,然后我来看一下下一个模型是 GPT5.4 然后。这个 GPT5. ## 发言人 2 00:18:01 4是我我我我觉得非常非常强的一个模型,然后奥特曼也说,啊,GPT5.4的调用量是非常夸张的,在5.35. ## 发言人 2 00:18:10 2之后,这个我从 GPT5就一直开始在持续关注和持续在用。然后 GPT5.4的进步是飞速的,是飞跃性的。这个它从5. ## 发言人 2 00:18:22 2到5.3 codeX 到5.4的进步是非常非常直接和夸张的,是非常夸张的。 ## 发言人100:18:28 那么,就是他在5.2当时还相对还没那么领先,对吧?还还超过不了 office4.6然后但是5.4对,就这个进步怎么体现啊? ## 发言人 2 00:18:38 这个进步呃这样吧,可以这么讲,就是呃。嗯,GPT5.2的能力也非常强,能力也非常强。但是呃做这样的一个页面,它可能需要四个小时。嗯,对。然后他可能需要花,比如说800万TOKEN那GPT5.4呢,他可能只需要一个小时不到,那他可能是花。 --- 发言人100:19:00 两三百万TOKEN200万TOKEN啊。明白。 发言人 2 00:19:03 这个时间的降低对于这个开发的速度和迭代是非常非常关键的,尤其是它在保证这么高质量的交付质量的前提价。 发言人 1 00:19:13 嗯,了解了解,很清晰。 发言人 2 00:19:16 然后我们可以看一下这个 GPT 啊,我这块可以有一个很清很,大家这个视觉上一下就可以,这个就很清晰了,就不要不需要说什么了。可以看到这个他这个复刻的效果和这个呃这个完整程度,对吧?他一些细节没有做好,我们待会会谈。然后我我会讲一个更重要的事情就是嗯,他跟 cloud code 呢,他做这个页面大概花了一个多小时,就是他的时间可能是 Coco 的十倍左右这样的一个量级了。嗯,但是他的这个效果呢,他是值得的,就是所以说这个事情就看如果说问什么模型好,这个是没有一个能,就什么是最顶尖的模型,没有一个特别能能直接回答的一个。 发言人 2 00:20:00 概念,还是看任务的一个情况。那么对于这个任务来说,它是一个很明确的长序列的复杂任务,那么可能就是 GPT45.4 在上面的表现会更好一点。 发言人100:20:11 明白明白,很清晰。然后这个下拉框这些也有。 发言人 2 00:20:15 然后我们来看一下,就是他做的细节吧,这个都很清晰了。呃,比如说像这边他的这个下拉框的这 --- 个设计,语言风格、颜色的这个排版跟我原来的这个排版啊是很接近的了。嗯,然后但是他有一些小小 bug 比如说你看我点击外围它是没有办法自动弹回的,这个是我没有在文字中也没有在截图中说明的,但是如果它再聪明一点,它应该能想到这些基础的设计的相交互方式和理念。这种是用户用户怎么去用啊,对吧? 发言人100:20:48 哦,哎,我忘记了,像刚刚那个 OPUS4.6 的那个,就虽然说界面设,对,这个它有吗?哦,这个就可以。 发言人200:20:56 对,这个可以,但它直接调的是组件了,这个对,它设计风格。就没有跟上,但是这一点他交互上是做的更到位。 发言人100:21:03 就交互的逻辑他又有。 发言人 2 00:21:04 嗯,对对对。然后像这,然后他只能单选,这个也很蠢。 发言人100:21:10 哦,明白。 发言人 2 00:21:12 哎,我都不知道怎么关掉它啊,只能点击关掉。嗯,然后这个设置的页面,它弹弹出的位置也不对。 --- 发言人100:21:20 哦,对。 发言人 2 00:21:21 就跟你正常是我要在这在这弹出。嗯,对。明白。还有就是再举一些细节,就是往小缩的话,会发现我的 card 它是紧排布的,它这是从这有一条横线作为区分,是两条两个 card 并列排布,这样有,它会有 bubble 它有空泡空泡在这,这个排布上也是不一样,它没有完全复刻出来。嗯,然后再往里面的细节就是我这块其实对于这个加粗是做了一些特殊的设计的,这个他当然这个对他要求太高了。 发言人100:21:55 嗯。 发言人 2 00:21:56 对,整体上GPT5.4已经做的非常非常非常非常。 发言人100:22:00 好,明白。就大概一个多小时,然后他能够基本上可能实现一个80%吧,80分的一个这个这个复刻。 发言人 2 00:22:08 80分的一个复刻。嗯,但是我我想说一下,就是从编程的角度来说,它其实是一个指数指数上升的一个时间复杂度,就是你80%到100%的时间80%到90%的一个时间成本可能是0%到80%的十倍左右。可能这样哦。 发言人100:22:27 明白明白,所以这个我就想到了,像去年12月份,当时咱们也线上有开过一次会议讨论嘛,然后当 --- 时你给我们的反馈就是呃反而是 office4.5突破了那个编程的那个拐点之后。其实它可做的事情,或者说它真正打开的应用的这个价值的这个空间,它是巨大的,比起可能前三年大家从模型打分,从0分进步到80分的那个那个所打开的这个应用价值是完全不是一个维度。 ## 发言人 2 00:22:57 完全完全不是一个维度。 ## 发言人100:22:58 他这个题我在那一次。跟你交流完之后,我其实就有很大的启发,就是当时可能呢就是从金融的角度啊,就我们资本市场会觉得,哎,模型其实已经这个个快速的投,这个呃大量的投入了三年了,是不是已经技术要放缓了?对吧模型的智能水平要见顶了,所以大家就担心 AI产生了泡沫。但是我们在12月份跟你交流完之后,给我们的启发就是,哇塞,真正其实模型的智能才刚刚开始。然后就感觉到这个这个节点跨过了之后,所以其实到了今年春节前后,大家看到这种小龙虾的火爆,其实就更好的去理解了为什么是在这个时刻我们看到了这样子的产品。 ## 发言人200:23:36 是,就是MiniMax2.7这些模型它跨过了,当时过年的时候我也,我跟首席讲,大概就是今年年中或者年前会有国产模型大概能接触到OP4.5左右这个水平,它就会引来一大波应用的爆发。因为它就到这个bar了,到这个bar以后,它的空间就非常非常大,明白,空间就非常非常大,包括它有一个。很夸张的地步是呃大家可能嗯没有一个就是没有一个切身的体会,就是呃它它是一个复利行为,很夸张的。模型的能力差距,它是个复利行为。嗯,就是你差0.0%0. ## 发言人200:24:18 5它,你差一个点两个点,比如说就是我们从根本的这种,我们主观的性能上评估来说。我是要迭代100次的呀。啊。我可能要对话100次,一千次,一万次。 ## 发言人100:24:30 没错,就是说你每一次,对吧?就是你你相当于你每一行代码如果都偏差了,那么0.1%对吧?那你 --- 如果是以万行代码,其实你这个偏差的效果就非常之明显了。所以当我们在进步的时候,我们每进步那么0.1%其实也就很惊人。 ## 发言人 2 00:24:46 是的是的是的,这个会非常非常夸张,明白明白,直白说就是呃用这样的模型是 Web coding 是写不出来左边这样的,哦,这样的页面的,是做不出来这个,对,就是可控时间范围内就做不了。low 嗯,对。所以我们这个对于 GPT5. ## 发言人 2 00:25:04 4是一个非常强大的模型,我们然后呃我们可以继续这个看下一个国产模型是,好的。啊,下一个是Minimax 的,Minimax 就搞了一个笑话出来了。啊,因为 Minimax 啊,大家可能看到了上古论坛的这个影子啊。哈。呵,可能是零几年那种感觉了。 发言人100:25:25 就完全不一样是不是? ## 发言人200:25:26 啊,对,因为 Minimax 它没有多模态能力,这个也是能理解,它就但是我不能理解的是他连一个基础的这个,就前端框架也用不对,那个就比较夸张。嗯,他这个明显就就。 ## 发言人100:25:37 刚刚我们看那个 GLM 的时候,就至少他的多模态能力识别出来了你可能是一个这种博客类型的一个这个页面,对吧?所以他给你,对的,搞了一个基础的框架。所以这个地方就很有意思,就是说我们如果在做前端任务的时候,如果你的多模态能力不够的话,其实它会完全限制,就首先你看不懂,那你就谈不了下一下一步的复刻。 发言人 2 00:26:00 --- 对,其实多模态是个非常非常重要的能力。然后 M2.7好像没有嘛,那嗯 M3说是会出。那么没有多模态,其实我们生活中,我们大多数跟别跟模型交流或者跟人交流,复杂的信息都是通过截图的方式体现出来。嗯嗯,对,就是这样的话就没办法沟通了。 ## 发言人100:26:19 没有办法。哎,我我这个地方突然想到一个问题啊,就是因为我们都知道 GPT 或者 Gemini 的多模态能力其实应该是比这个 cloud 比比比 cloud 是要更强的。是的是的,对,所以就但是但是在刚刚的那个那个那个比较上感觉 cloud 其实也基本上都看懂了你这个页面的逻辑。 ## 发言人200:26:39 那我们可以快速跳到 Gemini 了,OK 哦,啊,Gemini 做的还很很 OK 的,这是 Gemini 做的。哦,Gemini 这是 Gemini 做的,然后做的就相当 OK 了,其实本质上如果我们把它跟 cloud 对比的话,嗯,对,Gemini 的多模态能力是很不错的,但是我可能我可以提前先讲一下,他写的代码写的一坨。 发言人100:27:00 啊。 ## 发言人 2 00:27:01 对,就是他他他这个代码写的有 bug 嗯,浏览器这这个页面经常会刷新。嗯,然后很多地方也是根本没实现。嗯,哎,哎,这个实现了,OK 哎,那是哪有问题来着?哦,他反正是有 bug 我印象很深,就是他一直这个页面会持续刷新,然后对,大概是这样。 ## 发言人100:27:24 明白。诶,我还我还有个问题啊,就是你看你左边的呃你你看你左边就是你这个真实的系统,对吧?其实你的这个就是几个 KOL 的这个内容,就我看 Gemini 基本上就是复制了嘛,对吧?比如说吴恩达这个这个抨击 AI 监管趋势,对吧?哎,就为什么其他的有的模型就是它,就是就是我我在想呢,就是说我当我复刻这个系统的时候,其实我未必需要去理解说这个文字可能是这个头像的这个 --- KOL 的一个话语的总结,就我可能不需要理解总结这部分关系,我。我如果就直接的这样复制,呃,是不是也可以?然后我不理解就是为什么刚刚有一个国产模型连这一步都做不到,就是他为什么就直接变成了这个人物的介绍。 ## 发言人200:28:10 其实很不容易的,啊,不容易的就是呃想通过截图大量的一个信息的过程中,它其实是一个长序列任务,就是他得清晰的知道他需要把截图里面,他有一个任务要求,或者我对他的一个要求点是我要让他尽可能高保真复刻出来每一个,就截图出来的情况和内容。但是有些模型它在长序列过程中,它会丢掉各种各样的东西,比如说你跟它,你就还是我们一开开头会讲那个例子,你让它拆个门,它可能就把螺丝丢了,啊,把把各种各样东西丢掉了。然后你会发现做了就6成7成8成8成都很好。 发言人100:28:46 就他把细节都给丢掉了。 发言人200:28:48 对,但是像好的模型,这些地方处理就很好。嗯嗯,这是 Gemini 写的,Gemini 做的很不错。 发言人100:28:55 OK 嗯。 发言人 2 00:28:57 然后minimax我们就快速跳过了,因为。这个他没有多模态能力嘛。 发言人100:29:01 不太可用是吧? --- 发言人 2 00:29:03 嗯,对对对,在这种这种场景下就很。 发言人 1 00:29:05 哎,那我想问一下,那如果说不具备多模态能力,或者说多模态能力相对比较薄弱的情况之下,那是不是意味着就是他的编程能力不太能在前端去体现,就他他只能其实可能去做后端的一些编程。 发言人 2 00:29:19 啊,这个说的是要说的话是非常直接,是这样。 发言人100:29:23 哦,然后明白。 发言人 2 00:29:24 我我可以我可能可以补充一点啊,就是我也尝试在 open cloud 中用 Minimax M2.7 它能在 open cloud 中使用的原因是 open cloud本身自己接了一个 OCR 的一个模型吧,或者说一个一个管道,它可以把这个呃图片转成文字,呃,提供给 Minimax但是但是这个差距是巨大的。 发言人100:29:47 这个差距是巨大。对,会还是会丢丢信息。 发言人 2 00:29:50 啊,这这这些排版设计上的风格的理念是没有办法通过文字去讲,嗯,了解了解,对对对,好的,然后。然后我们来看,这是 Kimi。Kimi 对,这是 Kimi 呃,Kimi 很有意思啊,他做了一个,他比 GOM5要好,就是他还是保留了这个 card 的感觉,就是他还是把这个 KOL 的一个信息和内容嗯,进行了一个进行了一个介绍。但是呃你明显感觉就是 Kimi 跟 KO 呃,Kimi 跟 Jimna 呃,JLM5它是套模板。嗯,他是套模板,你知道吗?就是他这个明显就是一个 APP 的一个过程。 --- ## 发言人100:30:29 我懂了,就他看懂了你大概反正是个博客,对吧?那我背后我可能我已经学习,就相当于我是一个学生,我要考试,对吧?明天要考期末了,那我现在先去刷1,000道题,对吧?我我只要这个感觉你有点像的时候,我就在我的100个这个模板库里面掏一个出来。 ## 发言人 2 00:30:46 对对对对对,就是他,嗯,对,他没有动脑子去写我真正想要的,他只是套了一个他可能很熟练的模板。 ## 发言人100:30:54 嗯,明白,这个可能也是现在,就是说因为毕竟国产模型是这个,更多的是在争。分流的这个技术,这个这个基础上去去拓展他们的能力嘛。 ## 发言人 2 00:31:05 所以是不是也有这种可能吧?哈哈哈,明白,不知道他们对,就是感觉这个 follow follow 我的,这个跟随我的指令,或者说他对这个意图的理解还不是不是那么深刻。他最起码应该做一个像,就就如果要求他在15分钟之内做一个东西,他应该做,至少做一个这样简单的东西出来。嗯,做一个这样的,就根本不合我意的框架。然后国产里面比较比较惊艳的,啊,比较有意思还是这个最近新出的这个千问3. ## 发言人 2 00:31:34 6啊,也是啊我们这次 meeting 的一个啊一个,很惊人的发现,新的,比较重要的一个模型。然后我们可以看到这个,呃。这个千万对于,就在这些国产模型,一众国产模型里面,它是唯一一个能在这个场景中啊,当然也有随机应用在里面,但是整体上他对这个事,对我这个想要做的这个事情的认知是。比较 follow 的上,这个其实很重要,这个非常非常重要。 --- 嗯,因为通常开发过程中,啊,那你会碰到什么问题呢?就是你你不会写非常非常详细的 prompt 因为写非常详细的 prompt 是非常非常不容易,非常辛苦的一件事情。你大概,你非常期待他能通过上下文和你的简短的描述让理解到他能做什么事情。嗯,那么如果他做的是错的,那甚至不如他不做。嗯,对,但是千问3.6我就感觉呃我觉得确实有国产替代的这种感觉在里面,就是它确实还还很不错在这个事情上。 发言人100:32:39 嗯,哎,但是我这个那个我看他这个首页这个这个这个日期是不是看错了呀?就3月31到4月11对,就为什么这种错误会出现? 发言人 2 00:32:50 哦,他很多细节做的很不到位,哦,像这块他的悬浮窗。 发言人100:32:55 他的box 直接放,就这个就拉不出来。 发言人200:32:57 嗯,对,他这个都做的很,就是。做的没影了。 发言人100:33:01 哎,我我就是我很好奇啊,就是他既然有这个多模态能力,能够看懂你左边的这个排版哦,然后你看,比如说像吴文达,对吧这段话左边跟右边基本上都是复制过来了嘛,对吧?那为什么他在复制这个年月日的时候他会复错呢?复。 发言人 2 00:33:21 嗯,好问题。 --- 发言人100:33:23 哈哈哈,对,就是就是理论上它不是都有这个能力能看懂。哈哈。 ## 发言人200:33:28 好问题,我这个我感觉可能会有一定随机性在里面吧,就是你可能再让它生成一次,它可能就生成对了。哎,或者说。 发言人100:33:36 那比如说他给了你这个代码,你你会能够简单的修改不? 发言人 2 00:33:42 嗯,什么叫我能解。 发言人100:33:45 我就就比如说这个日期嘛,就这个日期错了,就是我能不能通过,就是他生成的这个代码,我简单的呃给他告诉他,OK你这个日期的这个部分你写错了。 ## 发言人200:33:53 这个肯定是可以很快 refine 的,但是核心的一个,嗯,对,那这块,呃,对,这个首先你这个点提的非常非常好。然后我可以补充一下,啊,这块就带来一个巨大的差距,就在于说,比如说跟跟 Gemini 啊,或者说跟 GPT 的这个差距就是我用千问3.6我可能就在第一轮起跑线的第一轮的基础上。我可能要多发5到6,5到10次的 prompt 我才能让它修到一个跟他们在同一起跑线的地步。嗯,这个的成本是非常高,大概就你得花三五个小时在上面。 发言人100:34:26 嗯。 --- ## 发言人200:34:27 明白。因为你说一次它不一定管用,你得反反复复的去讲,你什么你想要的效果。 ## 发言人100:34:33 了解,但是已经在国产模型里面,就是通过这一次我们这个测评了,就感觉千问的能力呃至少在我们现在的这个任务上,它的表现其实是超出了 Minimax Kimi 还有智谱的一个情况。 ## 发言人200:34:47 是的是的,就是相对来说是整体比较。 ## 发言人100:34:49 能看的,就至少在前端的这个,那可能这个背后反映出来,像千问一直以来可能它的基座模型,这个多模态啊理解它也比较比较比较强,然后可能在编程上。上海目前有一些补助。 ## 发言人 2 00:35:02 啊,是的是的。OK 好的。对。然后嗯一些细节他处理的还是有问题的,这个就不展开讲,因为这也是可以理解的一些事情。那么我们就回到这个 notion page 我们可以,然后我比较一下,讲一下,比较一下他们的这个价格和我的一些感受吧,我把这个放到后面。 ## 发言人100:35:20 好,ok。对,刚刚给大家简单的展示了一下不同模型生成的一个这个效果。然后我们现在因为佳宏提前已经跑了一圈了嘛,然后给我们对比分析一下。对,包含这个运行时间等的啊。 ## 发言人200:35:38 对,然后比如说 OP4.6 实际的开发体验就是开发非常快,响应很及时。嗯,但是他在这个任务上表 --- 现就偏差比较大,时间上那就是一骑绝尘了,一骑绝尘啊,就是非常非常顺手。那么 GLM5 呢,我可能当时是我用他的 coding plan 然后就可能有点拥挤,然后就耗时也比较长。长,然后他实际写出来的东西呢,也跟原版差距比较大。嗯,然后这个第五点四就不说了,但是他他他的这个耗时是非常夸张的,就跟跟一线的最,比如说这个 OPS 比的话。 ## 发言人100:36:13 哎,这个地方我我打断一下,就他这个耗时,你你相当于,因为我记得你刚刚在部署任务的时候,其实你已经告诉了不同的模型,就是就是你要你要检查呀,你要 check一下,就是如果你觉得还没有做到复刻的话,你可以再来回去做,对吧?就是相当于每个模型它都有这种权限能够去跑得更久,但是是他们自己的选择。 ## 发言人 2 00:36:33 没有进一步去跑。是的,比如说我就可以看一看,这就是他实际的这个交互了。嗯,然后稍等一下,我可以打开一下设置,这就是这次任务的这个交互,然后我们可以回到这,对。然后你看他一直在这里面交互迭代,他一些具体的细节已经。 发言人100:36:57 就他不断的告诉你他完成了哪个部分等等。 ## 发言人 2 00:37:00 然后你看我最后跟他说,已经怎么样?然后他做的非常,就是每张逐张对照。然后复合的所有这些,他要复合的点。你看他考虑的事情就很全面了。默认态,设置抽屉,标签悬浮,时间线,然后包括到后面那些设计元素,暖色背景,hero 标标题节奏,这些东西。嗯,然后这些,然后他他他,而且他说的很,这个话我们可以对比一下,对。哦,我这很有意思,我们可以对比一下。就是 OS 它有一个很典型的特征,就是他做事很快很急,然后他很有信心。 发言人100:37:38 OK 然. --- 发言人200:37:39 后 GPT 是非常严谨,就是这两,就不同模型就是不同人,跟他们打交道是很不一样的感觉。明白。然后。 发言人100:37:50 对,左边是ops ops. 发言人 2 00:37:51 就是说已经确认达到标准,就很有意思。 发言人100:37:56 就是他的语言相当于更加的绝对一点,然后。 发言人200:38:00 对,但其实作为开发者我是更喜欢喜欢 codebase 这样的模型。嗯,就是我是要知道我还什么地方没做到位。 发言人100:38:08 哎,我我再看一下你左边那个这个这个 OPS 的这个对话,就是你往上,就是你其实就相当于它其实是比较简短是吗?需要几分钟就给你跑完了,他有没有,那他在每完成一个功能的时候,他有告诉你,就是说我也完成了。 发言人200:38:23 会的会的。 --- 发言人100:38:24 他这向上管理,就这个地方就已完成所有关键调整。 发言人 2 00:38:28 嗯,对,OS一向是向上管理大师。 发言人100:38:31 哦,就就反正我信心满满的告诉你我啥都做了。 发言人200:38:35 是,就给你打一堆对勾,而且特别快,都过,做的非常快也非常好,然后恨不得给他打个 s 绩效这种感觉。 发言人100:38:42 哈哈哈,好的好的,明白,好的。然后大家我们就回去,嗯。 发言人200:38:48 OK OK 我们回到回到正题啊。嗯,然后我们 GPT之后,Mini Max 的话,它就是没有多模态能力嘛,嗯,但是后面我们有后端的这个测评。后端测评,minimax 性能力还是很到位的。 发言人1 00:39:02 后,OK明白,就可能前端比较缺失。 发言人 2 00:39:05 嗯,是的是的。然后马上 Minimax 说下一个版本要补上这一块短板,那我们可以期待一下。 --- 发言人100:39:10 明白。 发言人 2 00:39:12 然后 Kimi2.5 这个就感觉变成小程序了,这个就差的比较大。然后千问3. 发言人 2 00:39:18 6呃,我用我我是用我是用的是百炼的这官方的 URL但是我碰到了一些奇怪的问题,让我很恼火。就是他用的过程中指定多模态能力指定跟随都不错,体验是很不错的。哎,但是这个就很让人恼火了,他他经常会给我报这个错误,就说啊因为他上下文太大,他就超过那个百炼平台能接受的这个嗯发送请求的大小,然后就一直给我报这个错,这个肯定不是我的问题啊,就是他官方的问题,然后又很打断我的这个开发进度。 发言人100:39:51 希望他哎那你那你感觉这个问题的背后是是什么导致的呢? 发言人 2 00:39:57 我理解应该就是他百炼平台对于这个接口。口的适配,或者说哦这个明白。 发言人100:40:03 所以可能是,所以可能只是一个就中间层,对吧?就 mass 层它可能这个就是接口它没搞。 发言人 2 00:40:09 哦,对,这不是模型。 发言人100:40:10 --- 跟模型没关系。对,这这跟模型没关系,明白,因为因为现在就包括我们团队这个跟踪阿里嘛,其实阿里现在就是一个是百炼,然后包括派,包括其他有几个团队都在做这种,就是说 API 对外产品的一个开发。 ## 发言人200:40:25 嗯,那就可能是百炼这个平台,它暂时,因为3.6才刚出第二天嘛,明白,有意思,有点便宜,对对,明白。然后第三点就是他意识是到位的,就是他有这个检查的意识。啊,我要批评一下谁没有检查的意识呢,就是 off4.6他没有检查的意识,他哈哈,他他直接第一遍框框框。 发言人100:40:47 然后,就信心满满告诉你没有问题,没有问题,对,但千万还是会检查一下。 ## 发言人 2 00:40:53 对,千万是大量调了 playwright,playwright 就相当于是一个浏览器的一个可以说这个 tool 工具嘛。嗯,然后就检查这个页面排版,检查很多次。但是这个前面3.6我必须说的一点就是它跟这个最顶尖的模型 GPT5.4和 OPS 比的话,它代码能力还是有差距的。这个代码能力差距一是体现在它前端页面的这个编写的这个过程的整体的这个性能和表现上,第二个展现出来的差距就是它的工具调用就不稳定,playwright 调用出各种各样的问题。 发言人 1 00:41:24 嗯,明白,对,但对。 发言人 2 00:41:27 然后再加上第二个问题就很让人恼火了,写的有点磕磕绊绊那种感觉。 发言人 1 00:41:31 嗯,明白,但是但是就是昨天咱们俩讨论就是呃至少你在试这个千万3.6的时候,你你会感觉,哎 --- ,比其他的国产模型明显要更加惊艳,对吧?就从实现出来的第一个版本,然后我记得佳红跟我说,就是他感觉甚至有一点像去年刚刚第一次用 office4.5的那种感觉啊。是的是的,对吧,就是说,就是其实超出了你的期待,因为我们在用国产模型。 发言人 2 00:41:56 超出我的期待。 发言人 1 00:41:56 对,因为在用国产模型的时候,我们大家都知道嘛。我们现在一定是有差距的,但就是说,哎哎,感觉好像也是可用的。嗯。 ## 发言人 2 00:42:06 就是这么讲吧,就是如果所有的这几家模型,呃,就是如果说国外海外模型我就一点用不了了,那我会用Qwen3. 发言人100:42:15 6啊,明白明白,对对对,好的。然后还有个 Gemini 是吧? 发言人 2 00:42:20 对,Gemini 我们刚才讲过了,然后 Gemini 的话,它多模态能力确实非常强,然后这个也是大家共 众所周知。 发言人100:42:26 你好像要往下拉一点,我们那个屏幕看不到你。 发言人 2 00:42:29 --- 哦,OK 好的,没问题。然后然后这个,但他这个写的 bug 有有点小 bug 反正。嗯,对以及交互上,刚才看了一下点击没问题,但是我之前测试好像他交互,点击不开,可能也,反正哎,Jinmai 写的 bug 写的代码,他就是可能有 bug 这个我之前用 Jinmai 写过一些代码,简直没法用。 发言人100:42:50 嗯,明白。 发言人200:42:52 对,所以就,清晰,这就是整体的一个前端上的表现了。 发言人100:42:57 哎,然后佳红把这个表格也缩小一下,因为。你后面还有那个 tokens 的那个数量,那个我们也一起看一下那个表格的对比。 发言人 2 00:43:05 我把这个拉到拉到后面。 发言人100:43:07 对对,对有个价格,因为毕竟像国产模型现在价格便宜嘛,对吧?你打了个打了个这个一折,你也不能指望完全一样的效果。 发言人 2 00:43:16 对,这里面最便宜的就是 MiniMax 了,然后啊其次就是 Kimi 和千问。 发言人100:43:22 哦,所以所以千问的价格其实还并不贵。 --- 发言人200:43:26 不贵的,千万真的很不错。 发言人100:43:28 嗯,明白,相当于千万跟这个 office 去比,哦,甚至说跟 GPT 去比,其实这个输出的价格也基本上是两折了,1/10的感觉,嗯,1/10的感觉。 发言人 2 00:43:41 对。然后 GPT 的话,它因为它长城任务就是,哎,确实花花多少钱享受什么服务。 发言人100:43:50 哈哈,哎,对,这个很有意思呀,如果我们把这个价格一比的话,实际上因为 GPT 它这个耗的 tokens 包括跑的时间,就是明显更长,所以虽然说它这个输入。输出价格比这个 office 好像要便宜,但实际上你要跑完整个任务其实是贵很多。 发言人 2 00:44:06 会贵很多。 发言人100:44:07 对吧?那 tokens 可能是几倍以上的多,然后价格可能也就才便宜了个百分之五六十,跟 OPS 比。 发言人 2 00:44:13 对,但是 OPS 对于这种这种这种任务来说你可能你愿意花超过 GPT5.4 一倍的 TOKEN 你可能都难以做到它一样的效果,而且你会花非常多时间和精力在上面。 --- ## 发言人100:44:25 明白,理解理解,清晰清晰,好的,那接下来我们下一个部分,那个后端测试。 ## 发言人200:44:32 对,我们就进入后端测试,这个能力测试了。好,这块可以先简单介绍一下背景,这个是实际的一个背景,我怎么渲染一下?就是嗯我是个懒人,然后我我不一定每天都想打开这个网页,打开这个网页去看嘛,然后我就写了一个功能是,它每天早上8点会自动给我发昨天的这个 KVL 的一个摘要的邮件发到我邮箱里面。然后这个就是我从那个啊 QQ邮箱里面打开,啊。咳,打开我这个 KOL 这个应用,他给我发过来邮件的一个邮件的一个样式了。 ## 发言人 2 00:45:06 啊,大家可以发到发现一个问题,很直接,就是这个头像崩掉了,头像头像没显示,对吧?然后那这个就是一个很好的测试的方式啊,我就没着急修这个 bug 就让他们都分析一下,啊,作为一个测试对象。然后这边是统一所有的模型,就是使用的平台跟前端是一样的,该用 Cloude用 Cloude该用 cloud用 cloud 然后这这里是这个他们他们去呃他们他们进行测试的一个 prompt 我写的很清晰了。就是嗯这个主要分为三层啊,这个我要这块我要展开讲一下,就是前面是该有的他要调试的一些信息。我就不讲,然后重点是他要非常清晰的讲清楚他的调试过程,对根因的分析,就是对这个为什么会有这个 bug 的分析,并给出优雅的解决方案,这个优雅是非常重要的。就是嗯啊这么讲,一个就就就是。是从比,举那个门的例子,你拿电锯把门锯了,也是也是把门卸掉了。你但是你很优雅的把门卸下来,也是卸下来了。 发言人100:46:09 明白。 ## 发言人200:46:09 对,但是实际造成的这个对于项目造成的损伤对于它未来的可维护性和它的生命周期造成的损伤是完全不一样的。有些项目如果一开始没有很好的设计和维护,啊,随便堆屎山上去,那可能几万行就没办法,根本没办法维护了,一点都没办法写。这是软件工程中一个很经典的课题了,这个这个 --- 就不展开讲。然后我我来先简单介绍一下这个项目大概它这个问题的一个情况啊,后面我们就可以更清晰的知道不同模型做到什么地步? ## 发言人 2 00:46:42 那么这个现象很简单啊,它就是这个邮件日报的这个头像显示不全。那么根因呢,其实也是比较straight forward 的,但是它其实代码代码量很大,然后它需要在庞大的代码中找到正确的入口,然后找到这个他具体的这个原因,那么根因其实就是他邮件日报。呢,头像使用的这个公网的这个 URL 嗯,那手机上你没有挂挂代理,你就没有办法访问的嘛。那么这就是一个根因,那么解决方案这块就是要非常深刻对代码仓库的一个理解了,就是现象是很简单的,根因现象大约是30分。根因是60分,如何解决这块就是60分到100分的事情,这个是不容易的。因为他要在5万行代码库里面,几百个文件夹里面找到这个代码,然后准确的知道他要如何修改。嗯,然后要非常优雅的修修改,然后我们待会会看到很多模型给了一些很暴力的方式啊。嗯。 ## 发言人 2 00:47:40 呃,如何解决呢?那其实是我已经在数据库中,我其实在本地数据库里面已经把这些啊KOL的头像已经cash好了,已经保存好了。那么他应该使用本地数据库的地址,但是一山放过一山来,还有细节,细节非常重要,而且细节是魔鬼。头像是有版本的,那么我我内部因为大家可以理解,嗯,有些人他会经常换头像,比如说像马斯克这样的人一天换一个头像。对,所以他的头像是有版本的,所以内部呢,我是有一个特殊的参数杠ⅴ是指定版本,然后这个要在方案中写明,这就是满分了,这个是很不容易的。这是非常非常细的点啊。但是如果他没有写清楚杠位,那很有可能后期的维护性和这个程序落地就会有各种各样的问题。 ## 发言人100:48:31 明白,那我们来看一下结果。 ## 发言人 2 00:48:33 嗯,对,我我们先从简单的这个感觉上看一下,然后这个 TOKEN 不是一个非常非常严谨的,因为他这个有些 coding plan 我也没有办法拿到详细的数据。但是其实大家都差不多了,但 --- GPT45.4肯定是花了更多的 TOKEN 的,这个是很明显就能感觉到迭代的更久,然后时间上也是更长,这个时间是真的,这个时间是我测试出来的。明白。 ## 发言人 2 00:48:55 然后 GPT5.4基本是像Claude4.6的三倍了,然后像其他模型的两倍左右。嗯,然后这块要重点批评三个模型。嗯,哈哈哈,重点批评三个模型。 发言人100:49:05 Gemini也被批评了。嗯。 ## 发言人 2 00:49:07 对,这三个模型很蠢啊,我不知道,就是这个是很重要的一个事情,就是我不希望他在有些目录或者代码下面去写,就改改我任何文件。嗯,因为这个很,哎,这个就很气,很生气。我这个仓库,他万一改了什么什么代码,但是我不知道,他可能就会造成不可不可不可逆的维护影响,所以我让他们是只读只读权限进行调研。然后这两个、这三个模型犯了一件什么很蠢的事情呢?他就是把他们进行的调研报告直接写在了我的这个仓库的根目录下。 ## 发言人 2 00:49:48 那么这个事情是,其实在日常开发中是非常恼人的事情。就好比说我们把门拆了,然后他把螺丝钉撒在地上。 发言人100:49:57 明白。 ## 发言人200:49:58 那螺丝钉撒在地上。就一个个去剪吧,这个累死人了。所以像这种模型,你就很要担心它有没有在一些细节上follow你的指令。如果没有follow,你要把它揪出来。这个揪的过程是非常annoying的 --- ,非常恼人的。 发言人100:50:13 嗯。 发言人 2 00:50:14 明白。对,这块就简简单的一个体现吧。然后我们就进入到这个啊实际模型的这个表现了,那其实对于这种长城的这种复杂的任务来说,还是 GPT5. ## 发言人 2 00:50:26 4的性能最好。那我们来看它的这个分为几个等级啊,就是首先有没有对邮件流程分析,就是我讲第一步就是你首先分析到整个对的代码仓库代码位置。然后第二个层次呢,就是头像为什么会坏?对这个根因有没有一个分析,那这个就是也是非常简单的,就是看是不是这个 URL 是公网 URL由于网络环境错配的一个问题。那么是否提出一个常规的,这个正确的解决思路和方案是邮件的这个呃 URL 应该是。使用我们本地服务器供应的这个呃这个这个这个 URL 而不是使用这个,就走走本地的内部的这个数据库提供的这个呃这个头像。那么他是否发现这个,是否发现说有这个杠 v 这个参数?这个决这个决定于他写出来代码能否一遍就通过运行,或者说他是否留下了很多隐患。 ## 发言人 2 00:51:25 嗯,那么我们可以看到就是 GPT5.4基本都做到了,是性能非常强的。然后但是他就是有一些地方他可能自己做一些简单的测试吧,但是写的稍微有一点就是绝对化表述,那么这都是小问题的,真的是小问题。明白。那么呃 GPT5. ## 发言人 2 00:51:45 4下面就 OP4.6了,OP4.6也是很强的。它只是啊我们这样我们就可以比较简单的去讲,它就少一个杠 v 那它可能就是需要再多多迭代一个版本,因为会报错。 --- 发言人100:51:57 嗯,明白。 ## 发言人200:51:59 但这个迭代是。很很,也不是很很很 annoying 的。因为他这样的,像这种情况,呢,这个最近有个流行的词叫 harness engineering 嘛,对吧?就是他核心的一个理念就是说啊模型怎么样快速的去推进整个工程呢,就是你要给模型快速正确的这个 feedback但是像给你发邮件这种 feedback你必须要 human in the loop。就是变会变成这样的情况,就是他说我改了一版了,你测试一下吧,只能你来测试。然后你就在那苦苦等,打开那个浏览器,打开你的邮件窗口,等他发给发给你个邮件。然后看这个邮件有没有那个头像有没有修不好,所以这个就是你得 in the Loop了,这个就其实对于开发效率来说,它就差了差了差了一截,就哪怕就这么小小的一个点,就可能让你多花10分钟20分钟时间。 发言人100:52:50 在里面。明白。 ## 发言人 2 00:52:54 然后 Minimax 在这个表现上是非常好的,然后但是它的解决方案是呃有问题的。他是建议后端放宽对这个杠v的校验,因为如果没有这个参数是,我会直接check,我会直接把它check out的时候就把它报错。这个其实是比较严谨的一个方式,但是啊像他这种就属于那种啊我只想尽快把这个 bug修掉,但我不考虑这个项目的长期维护。嗯,对,那像这样的话就是你的方案是 OK 是可以,但是对对于如果这个这个门是我家的门,我不会希望我家会被你这样去做。嗯,我的项目不会希望你这样去改我的项目,这样的话你到后期这个项目就没法维护了。 ## 发言人100:53:35 明白,他就更加,就是说呃这个叫什么,脑回路更加直接一点,反正你刚说有这问题,我就一次性的。 --- ## 发言人200:53:42 对,就是我最直接的,比如说水龙头坏了,那他就说,那可能是你直接把水龙头变成水管吧,或者我,反正就很暴力,很,比较暴力,有点暴力。明白。对,然后我们看J M3.1 J M3.1的话,他的这个方案是这样的,呃。后端不要报错,类似跟 Minimax一样吧,但是这这也会带来长期维护上的问题。 发言人100:54:05 嗯。 发言人200:54:08 嗯,然后千问3.6呢,是呃他是没有就没有意识到这个嗯就我的 URL 还需要这个参数,就彻底没意识到。嗯,对,所以这个他就差一个档次了。 发言人100:54:22 差一个档次。明白,就相当于我现在找问题的时候,我其实就问题没有完全找到。 ## 发言人 2 00:54:28 对,然后 GLM5和 Kimi2.5这个就在这个呃代码分析的路径上就差一点。嗯,就是他呢从他的报告里面就能感觉出来,他并没有分析的非常透彻,说我本地已经有了这个数据库,他就没有分析到我本地已经有数据库,已经把 QL 的头像存进去这个事情。他在分析的链路上就差一截,然后他给的方案呢也很暴力,那更暴力的就是直接把图片扔到邮件内容中,那这个。是更暴力的一个方案。 发言人 1 00:55:01 哦,明白,就相当于这个图片都不是头像的位置,对对,就比较 OK 对. 发言人 2 00:55:08 然后 Kimi2.5 它分析的分析的代码位置分析错了,分析到我测试代码去了。哦,对,因为一个大型 --- 项目,它的代码是非常非常庞杂复杂的,然后嗯我们分析就跑偏了,那这个就没救了。 发言人100:55:23 嗯。 发言人 2 00:55:24 对,然后这个是整体上后端测试的一个情况。 发言人100:55:27 哎,那个佳恒帮我们再总结一下后端测试的,就整体,那你感觉呃海外的模型就是 GPT5.4这个这个最强,然后 OPS4.6呢,也达到了可能80分的这种水平,对吧?就至少在检测问题,在解决问题上都都都都是方向都是完全正确的。然后 Gemini 是相当于只检测出来的问题。 发言人 2 00:55:48 是吧?呃,Gemini 检测出来问题,它给的方案就比较暴力,对于长期维护来说,比如说我这个项目如果写到现在这个规模,5万行到10万行代码这个规模,如果让 Gemini. 写的话就没法维护了,已经维护不了,已经就是已经没办法向后继续开发任何东西了,就是。嗯。 发言人100:56:07 所以对成熟分析师来讲,目前最好的模型肯定还是 GPT 跟这个呃 OX 至少这两个是可。 发言人 2 00:56:15 长生任务用 GPT 这是通用,明白。 发言人100:56:18 明白。而然后这个背后就是说呃咱们都先不需要去考虑模型价格,对吧?因为你比如说性能都不到 --- 位的情况下,你比如说假设这样是没有意义的,对,是没有意义的。嗯,明白,很很有意思,那那个国产模型那几个再帮我们总结一下好吗? 发言人 2 00:56:34 国产模型的话,Mini Max 还让我挺挺挺,就是觉得挺惊讶的,因为 Mini Max 它参数量比较小,然后它分这个正常来说给的分析结果也比较快,但它这个呃文本性能,文本分析的性能和长生任务上表现还是挺到位的,这也是龙虾上可能大家比较在用的一个原因吧,我觉得也很合理。嗯,啊,但是有一个扣分项,很蠢,嗯。它破坏了只读指令,指令跟随很一般,所以大家如果在小龙虾上用Minimax 那可能要小心自己的权限,别它随便做一些你意想不到的事情,这个会很危险。嗯,对,就是其他模型你像 GPT 和 of cloud你跟它说只读权限的,不会,绝对不会往那个目录去写。 发言人100:57:19 东西的。嗯,明白。 发言人 2 00:57:21 对,然后这里还有扣分点吗?嗯,扣分我感觉就到这了。 发言人100:57:26 哦,哦,就他扣了分之后,可能就排在千万后面了。 发言人200:57:29 我觉得是的,就是这个是非常非常常忌讳的一个事情。 发言人100:57:34 诶,但是像只读这个我理解,呃,因为可能也是一个通用的这种要求嘛,对吧你帮我写东西,我肯定要限制你说 OK 这个文档是只读的,那这种能力它有没有办法比较容易的就是在下一版本当中去迭代呢? --- ## 发言人 2 00:57:49 这个不是一个,它本质上是一个长城任务中它的一个注意力注意力机制。哦,就是它得在持续20步,可能20步一个30是部的一个,哦,他不丢。长周期的任务中,他得一直记得这个事情,就好比说您安顿了谁一件事,嗯,那他手麻手麻脚,可能坐坐两,坐坐坐一会就忘了,这个就会要影响。嗯,明白。而且这种事它的破坏性会很大,嗯,破坏性会很大。 ## 发言人100:58:17 理解可以理解,就就是像我们日常工日常工作当中,对吧我在布置任务,结果其中有一步,对吧,然后有可能这一步很重要,结果你把它给忘了。 ## 发言人 2 00:58:27 对,然后我们可以讲一个最近爆火的事情,大家可以,就是可以理解,想象一下啊,对。这个Cocoa 的代码是怎么怎么怎么不小心被 release 出来的?那肯定对于 Entropy,an an entropic 这样的公司,它怎么打包发版,肯定是用 skill 来管理的,肯定是让 OPS 自己去处理这些事情。那 OPS 不就是没有记住这个一些关键的代码不能泄露的事情,然后他就把这个东西打打包进去了吗?本质上是一样的,那 OPS4.6 也会出现。这样的问题在长长长序列复杂任务的情况下。 ## 发言人100:59:03 嗯,哎,那长序列复杂任务呃就是就是因为现在你你肯定有关注到嘛,就存储的这个短缺其实非常极致嘛,对吧?就是就是比如说未来这个存储,就我在物理角度上我去增加这个上下文的长度会有帮助吗? ## 发言人 2 00:59:21 这个我觉得帮助不大,本质上哦,就是他出现这个问题跟这个没有太多直接关系,他就是一个,嗯,他他上下文窗口都没有达到呢,他嗯就是他在这个注意力过程中就没有不到位。 ## 发言人100:59:34 --- 明白,所以还是模型架构的问题,模型训训练方法。是的是的是,嗯嗯,好的,明白,OK 所以就是说在这一轮,就是说后端的能力测试当中,就千问呃相对领先,然后 Minimax 因为犯了一个比较重要的这个长序列的一个错误。 发言人200:59:50 对,然后他就只能往后稍一稍。 ## 发言人100:59:52 只能往前挪一挪,明白,然后然后剩下的就 GPT m 跟 Kimi 可能在你如果说真实的开发场景当中,它并不。不是你的选项,对吧?就我们现在因为并不谈价,就是就谈价格也没用,就我免费送给你用,但是对于你而言其实可能也是浪费时间。 发言人 2 01:00:09 是的,就是在这个项目中他帮不到任何忙的。 ## 发言人 1 01:00:11 嗯嗯,明白,很有意思。嗯,好的,我我看今天我们时间也差不多一个小时啊,然后那个我我最后我再再请教一下佳宏,就是因为那你现在日常当中开发过程肯定用这个 cloud 跟 GPT 是用的最多的啊。呃,你你你感觉就是目前模型使用者对模型会产生依赖吗?就是或者说不同任务的这个切换,它这个复杂吗? ## 发言人 2 01:00:37 啊,不敢说请教,我这个也是我最近准备想写的一个文章,因为我最近挺有感触的。这个我会把它称为活在,我准备写一篇文章叫活在 agent 中的人,因为人的本质是社会关系的总和嘛,然后这个讲一个,这个虽然讲到一些很形而上的东西,但是实际上对我的影响。很贴切,就是呃我每天百分之八十的时间都在跟codecs和agent打交道。所以,所以这个其实很有意思,就是我变成了活在A阵中的人。然后我想未来大家可能都会这样,就是比如说我跟首席您去交流。咋,我可能不会在现在打开微信,手抠几个字,发个表情包这么复杂,我可能就是跟我的 agent 的说一下,说我想约首席 --- 您 meeting一下,对吧?然后他就 arrange 好,跟您的 agent 的进行一个会面,然后 arrange 好任何我们 timeline 上的这个这个重合或问题,然后帮我们去搞定这个事情。所以对于模型开发者而言,你说我对模型有依赖,现在是肯定有,无论各种方面是会有。然后这个是很夸张的一个地步。 ## 发言人 1 01:01:47 是。但是我指的模型的依赖更多是说你对特定模型有依赖嘛,就比如说明天这个最强模型出现了,其实你可能这个对于你所做任务的这个切换其实很容易的。 发言人 2 01:01:59 啊,就。这么讲吧,我现在可能很离很难离开 Codex 那我可以离开 Ops. 发言人101:02:03 哦,我能解释简单解释一下吗? 发言人 2 01:02:08 呃,因为是这样的,就是我这个其实 Andrew Pacy 呃,我我可能先直接回答一下,然后我可能要稍微扯远一点去更全面回答一下这个事情。就是呃简单回答就是 Codex 它的长城能力更重要,更更更强大,然后这个其实在我科研工作中,这个是很重要的一个事情,它可以节省我很多精力,帮我完成很多复杂的深度的任务。然后 OPS 在这一点上,它其实并不是做的没有 Codex 那么强。 发言人101:02:37 然后我们,所以所以这个呃因为你提到是 Codex 对吧?所以这一些能力,它更多的是 harness engineering 的能力嘛。 发言人 2 01:02:48 啊,长城任务的能力,因为honey engineering我感觉嗯嗯不是我直观的那种感觉。 --- 发言人 1 01:02:55 对对,就还是基座模型的能力,它不是不是说基座模型。 发言人 2 01:02:59 基座模型。是基座模型。 发言人101:03:01 对。是吧?因为我我不确定啊,就比如说我们用这个 cloud code 其实也是可以打开 Openai 的 g 呃 发言人 2 01:03:06 API 的嘛。哦,对,是可以,就是是吧,但是我在到后面去用 Codex 我我也是用 Codex 我说 Codex 可能不是很准确啊,我我是说是 GPT5. 发言人101:03:16 4 OK 明白,那我理解了。嗯。 发言人 2 01:03:20 对,然后另外一个就是我我我可能想绕的更远,就是Andrew capacity 前段时间说了什么大模型焦虑症,AI 焦虑症,这个所有在一线工作的人都会有这样切切身的体会。他是讲的也很具体,但是到后面你会发现,你本质上焦虑的不是你的TOKEN啊,不是我TOKEN有没有烧完,啊,本质上焦虑的变成另外一个事情,就是你写不出来高质量的prompt因为你的注意力和你的认知和你的时间是有有限的。 发言人 1 01:03:45 嗯嗯。 --- 发言人 2 01:03:47 嗯,就是你你能否写下高质量的prompt,是决定你的工作效率的核心因素。 发言人 1 01:03:53 对,对,是的。 发言人 2 01:03:54 对。然后这个其实哦。 发言人101:03:57 我理解了,就是就相当于呃。我们作为用户而言,我们跟模型其实也是在磨合的,对吧?比如说这个三年前大家可能还在写 prompt但现在可能跟 agent 的对话它又是进一步,对吧?那我们怎么样适应这种关系? 发言人 2 01:04:12 对,然后这个其其实是一个很悖论的事情,就是这个在,我相信各位领导在工作的过程中肯定也会深有体会嘛,就是呃你脱离一线越越远,你越给不了一线具体的指指导意见。嗯,明白。就是我们现在好像是解放了双手,我们想说 OK 我现在有 agent 它可以帮我做很多事情,我好像很多细节都不需要不要去管,但是当一个项目复杂到一定地步的时候,你会发现 agent说什么你听不懂。 发言人101:04:39 嗯,明白。 发言人 2 01:04:40 对你听不懂的时候,你就没有办法给出正确的决策,给不出正确的决策,就只能任由 agent 在原地 --- 打转。 发言人101:04:47 嗯。 发言人 2 01:04:47 明白。对,这样的话整个项目就没办法推动,你就是你,但是你如果想推动,OK那你要进行大量的问答,问大量的分析,大量去理解这个项目在做什么,那这个的时间成本和金。经济成本是非常非常高。 发言人 1 01:05:01 嗯,明白,所以就是如何更有效的跟这个 agent 去沟通,也是我们可能未来每个人都需要掌握的技能。 发言人 2 01:05:10 对的对的对的。 发言人 1 01:05:11 甚至这个是。然后包括如果说我们呃其实就未来比如说这个模型的能力可能又进一步的进化了,但是如果作为使用者而言,我并不能提出很好的 prompt 提出很好的引导,那其实我并不能激发激活模型。 ## 发言人 2 01:05:26 的智能。这个其实很有意思的,这个往大了说是这个世界上最伟大的公司呃 apple 呢,最伟大,这个我也是我最近在思考的一件事情,比如说马斯克的 space x 或者说 whatever 马乔布斯乔帮主真的会去手搓这个嗯Mac的或者说apple的iPhone的UI吗?他不会的。他本质上就是有了一堆强大的 Codex,他的公司的员工就是——一些就在那个时代比较优秀的Codex,然后他现。写了一个超越时 --- 代的 prompt。很简单,就是能写出超越时代时代性的 prompt 是最重要的,这个是,而且对当下的公司进展有把握。然后乔布斯乔帮主在在八几九几年有一段演讲,然后跟当下也很贴切。 ## 发言人 2 01:06:20 他说的很有意思的话就是他一开始会觉得新来的员工会犯各种各样愚蠢的错误,到后面他就任由这些员工去犯,嗯,然后让他们成长,让他们记录这些经验,本质上跟使用 agent 的是一样的体会。就是你一开始会说 OK你写这么愚蠢的代码,我 hands on 我来改。但后来你会发现,你让 agent 具有完整的修改代码的上下文和经验和积积建成 skill 是更重要的一个事情。 发言人 1 01:06:46 嗯,明白,对。 发言人 2 01:06:47 这个都很有意思,对的。 ## 发言人101:06:48 哎,这个地方我我提出一个小问题啊,就是因为 skill 这个这个 skill 文档这种形式啊,我觉得在今年以来基本上是呈现指数级的一个爆发啊,就大家都在习惯这种形式。呃,一个很小的问题就是呃同样的 skills 的文档,它是可以接不同的模型,还是说其实针对呃不一样的模型,其实你 skills 的文档的编写方式是是是有差异的。 发言人 2 01:07:12 skill 是通用的。 发言人 1 01:07:13 是通用的。呃,是这样子的,我我理解 skills 它是通用的,但是我自己的这个实践过程当中,我发现一个什么样的情况呢?就是我比如说在跟 OX 对话的时候,因为它非常的聪明,所以我在写 skills --- 文档,让 OX 去做一件事情的时候可以变得非常简单,就很简洁。但是如果说我在用另外一个可能没有那么聪明的模型的时候,我 skills 其实就需要写的很细致。 ## 发言人 2 01:07:36 这这就很痛苦了,这个这个点说的非常非常好,这个就很痛苦啊,就是我为什么离不开TODAS的原因。嗯,因为就是你跟聪明人是不需要说太多话的。 发言人101:07:47 嗯。 ## 发言人 2 01:07:49 对,就是大家都很聪明,就很多事情不需要讲太多,但是嗯首先你也可以理解,如果你想把一件事情事无巨细的写到skill里面,这个是很很难,然后他也不会做的很好。对,但是如果对于聪明的模型来说,你本身不需要写那么多。 ## 发言人101:08:03 嗯,呃,然后那这个地方再跟佳宏探讨一个问题啊,就是呃因为现在领先的模型,它更多的就大家能够看到的可能是说它技术、编程能力这些领先,对吧?但是就是说你怎么去看待目前领先的模型,它有没有产生,比如说是数据的飞轮效应也好,用户的网络效应也好,就像上一代这个互联网时期,这个作为投资者大家最喜欢的一定是像互联网这种双边网络嘛,对吧?我有越多的用户,有越多的商家,有越多的社交媒体的内容,所以它慢慢的它这个这个这个商业模式它就自己转起来了,就在目前,因为我觉得很多小伙伴可能还在担忧,就是说在过去两年我们其实看到的模型这个排序啊,就总在变化。所以我能下这个结论说当前领先的模型会持续保持领先吗? ## 发言人 2 01:08:52 我觉得会的,三个角度。第一个角度是呃优秀的模型与优秀的用户,对。 --- 发言人101:08:59 嗯。 发言人 2 01:09:00 就是呃可以这么理解,国内从事顶尖编程的人首先会用 Codex 和 OPS 啊,就 GPT5.4 和 OPS. 发言人101:09:09 嗯。 发言人 2 01:09:11 对,然后我们就是这些顶尖的编程的场景和数据和经验和长长序列的任务才能被他们拿到。 发言人101:09:19 明白。 发言人 2 01:09:21 对,然后你用这 GLM 的,用 Kimi 的,用 Minimax 的通常都是很一般的编程场景,那这些一般的编程场景可能带来的赋能作用也不会特别大,这是我大家我忘言啊。 发言人101:09:36 所以您感觉就是说海外可能这个模型的这个头部模型跟跟后面的差距已经非常显著了。 发言人 2 01:09:43 对,然后第二点就是 GPT5.4和 OP4.6已经出现非常明显的模型自训练的这个这个尝试,嗯,包括我毕竟也有一些工作尝试在从事这个方面,本质上就是说你用户是很难 skill 的,在模型的规模。上 trillion 的级别的训练数据面前,你是模人用户你其实是可以每天,你哪怕一天24小时你不睡觉,你 --- 每天写 prompt 啊从事工作,你其实都很难达到一个很夸张的一个数据量的积累。那么现在更多未来更可信的方向就是模型自己训练自己。嗯,对,那模型自己训练自己哈,这个 GPT 呃,GLM mini mask Kimi 可能啊,坊间传言说嗯在用这个 OPS 或者 GPT 的东西在蒸馏,whatever但是呃这个我想来会有一定差距吧。这个我也没有,我我也不是特别特别有信息和了解。 ## 发言人101:10:38 明白,就是说可能海外已经走到了就模型自训练的这个阶段。 ## 发言人 2 01:10:43 对对对,而且他拿到的,他拿到的是他模型产出的所有的情况,包括他每一个 TOKEN传出来,他对于这个权重或者他对于这个注意力的一个具体的分数,这些东西他都拿得到。嗯,但是国内可能可能只能拿到这个头,就文本。 ## 发言人101:10:58 了解了解,哎,那。像那个海外的话,因为我们知道包括像马斯克旗下的这个 ×AI 嘛,然后包括像 Meta 然后我相信微软跟亚马逊其实都都都现在都都在加大的投入。就是你你你还从你的角度你还是觉得可能这个后来者这个第二梯队已经比较,就到今天这个阶段,就在海外模型已经进入到自训练这个阶段,后面的人其实已经比较难再去颠覆这个排序了。 ## 发言人 2 01:11:23 对的对的,然后我会觉得这个过程中大家有一个很很常见的一个迷思,就是 OK 好像是大模型这个东西才才是从22年23年23年开始突然爆发。然后好像离今天也不遥远,好像大家谁都能伸手够一够这种感觉。但实际上的话,呃,它有点像23年是第一辆福特汽车下流水线。现在已经是宝马在车🌐,宝马在路上开了。嗯,对它中间的这个迭代和过程是已经产生了非常长的壁垒,而且现在模型本身的全周期。期的这个训练已经变成了一个巨大的工业流水线。 发言人101:12:03 嗯,明白。 --- ## 发言人 2 01:12:04 对,这个就 OK你可以说你6个月、8个月训一个60分的模型,这个应该是没问题。你想,就跟我实现这个5万行左右代码项目一样,你从从0到60分,从0到70分是很容易的,从70分到90分那这个就无止境的资源和数据和投入要砸进去和时间。 ## 发言人101:12:27 嗯,明白明白,好的,最后一个问题我们今天因为也聊了比较长的时间啊,最后一个问题就是呃那个呃等一下,我刚想问什么来着?哦,呃,那个呃就是刚我们也总结了,就是海外的模型,然后国国内,哦,对,最后一个问题,那个我想问就是你自己的感受,就是那个26年你觉得海外的头部模型还会发生一次比较明显的这个技术的跃升吗? ## 发言人 2 01:12:55 不是已经有了呀,这个已已经有了。啊。 ## 发言人101:12:58 这个不是,就是今年,就是。更多的看到是这个这个呃 agent coding 嘛,但是就比如说像这个 Dario他不是自己自己就在我们跟踪他的访谈,他近期有提到,就是可能今年下半年,可能就包括在下一代要发布的这个模型,可能又是一次令人很惊艳的进步。 ## 发言人 2 01:13:17 啊,对对对,就是我觉得 make sense 嗯,呃,OK 对对对,就怎么讲我的感觉呢?就是 GPT6和 OPS5出来我是我是是不意外的。然后呃它强呢,按照我的理解应该是强在的就是他他的长周期处理问题能力和他的这个思考能力到了一个更深的地步,以至于可以逐步替代部分科研工作到这种层级,可能会的。 发言人101:13:49 --- 嗯嗯,明白。对,就可能替代部分科研工作的话,换句话说,就可能是不是在这个 research 的能力上面就会有很明显的一些进步。 ## 发言人 2 01:13:58 有可能。甚至都不是 research。search 的,就是啊我觉得模型很夸张的一点,它是对人存在的意义的本质替代。那么这样的话,它是对于大量这个确实是白领,就是这种文案工作者的一个高,就是稳定性的替代,尤其它如果这个模型做的比较确定性的话。 ## 发言人101:14:17 嗯,明白,好的好的,谢谢谢谢佳红,那个我们今天真的,佳红跟我们分享非常的那个充分,而且也比较少有机会真的能够一步一步的去看,就是我们怎么样去测试模型,因为比起我们日常可能我们自己去测试都显得就是没有那么就那么就是准确的任务。对,那谢谢佳红的时间,那那个我们也感谢那个线上的呃参会小伙伴,我们那个今天的会议就到此结束,谢谢大家。 ## 发言人 2 01:14:43 感谢感谢,谢谢。下次再见。 发言人 1 01:14:45 嗯,好。 发言人 2 01:14:45 下次再见。嗯,拜拜。 发言人101:14:58 感谢大家参加本次会议,用AI进宝获得优质复盘资料。更多专业AI工具和投研内容,打开进门APP领取会员体验吧!祝您工作顺利,再见! --- ## 发言人101:15:58 本音频为知识星球前沿信息收录,内部学习资料禁止外传。更多投研资料请加微信FCCNN八八。
核心判断
这次分享的出发点不是“谁在榜单上高几分”,而是“谁在真实开发里更省事、更少出错、更容易维护”。
佳宏认为,公开 Benchmark 的问题越来越明显:
主流模型分数往往只差 1—2 分,但这点差距很难帮助非重度用户理解模型在真实使用中的差别,甚至这几分本身也未必有足够代表性。真正影响开发体验的,不只是“任务是否完成”,而是:
- 完成方式是否合理
- 是否会遗漏关键细节
- 是否需要大量返工
- 是否给后续维护埋坑
他用“拆门”做比喻来说明这一点:
同样是“把门拆掉”,强模型像是用螺丝刀把门安静拆下、零件摆好;差一些的模型可能直接拿电锯锯掉。Benchmark 只看“门拆没拆掉”,但开发者真正关心的是:它有没有把螺丝丢满地、有没有把可维护性一起锯掉。
因此,在佳宏看来,强模型的定义不是只会把事情做完,而是能把事情“完整、少纰漏、低摩擦”地做完。
评测方法:为什么必须用自己熟悉的真实项目
佳宏没有采用公开题库,而是直接拿自己最近在做的真实项目来测。
原因很直接:只有在自己非常熟悉的项目里,开发者才能准确判断:
- 模型给出的计划到底对不对
- 改法到底好不好
- 哪些是无伤大雅的小问题
- 哪些会让项目后续维护成本暴涨
他选用的项目,是一个为自己服务的信息聚合产品:
自动抓取、整理海外 KOL 的关键信息,减少自己在中文互联网中反复消费二手消息、过时消息的时间成本。这个项目不仅有信息整理需求,也有明确的 UI 设计与美观要求,因此很适合拿来同时测试前端和后端能力。
测试设置与平台说明
以下模型/平台名称按录音转写与语境统一整理:Claude Code、Codex、GPT5.4、OP4.6、Gemini 3.1 Pro、GLM5、MiniMax 2.7、Kimi 2.5、Qwen 3.6。部分正式型号名称仍应以原始界面为准。
1. 前端测试任务
前端测试的目标是:
把真实页面及日期筛选、设置弹窗等多个状态截图后,交给 7 个模型,要求它们基于截图、上下文和明确技术栈说明,尽可能高保真复刻页面。
这个任务重点考察:
- 多模态理解能力
- UI 理解能力
- 指令跟随能力
- 前端框架实现能力
- 自我检查与继续 refine 的能力
佳宏的测试流程是统一的:
- 给出同样的 prompt 和上下文
- 让模型自己建项目骨架
- 自己写代码、运行、调试、迭代
- 再额外要求它对照截图继续 review 和 refine
- 直到模型在没有人工干预的情况下,达到它自己能做到的最好状态
他的重点不是看“第一轮草稿”,而是看模型上限。
2. 后端测试任务
后端测试来自一个真实 bug:
系统每天早上 8 点会给他发送前一日的 KOL 摘要邮件,但邮件里的头像显示异常。
他故意不先修这个 bug,而是把它拿来测试模型的后端能力。
这部分考察的不只是“会不会修”,而是:
- 能否准确说明调试过程
- 能否找到真正根因
- 能否提出优雅、可维护的方案
- 能否在大型代码仓库里稳定地沿着正确路径分析
3. 平台与中间层影响
不同模型的入口并不完全一致:
- 多个国产模型通过 Claude Code 进行
- GPT5.4 在 Codex 上测试
- Gemini 3.1 Pro 使用 Google 自家平台
主持人追问:中间层是不是会显著影响结果?
佳宏的回答是:会,但不是全部。
他提到,业内有一种经验性讨论是:
Agent 脚手架 / harness engineering / 原生框架,可能带来约 10 个点的性能增益。
但他同时强调,框架再重要,也不能替代基座模型本身的差异,尤其在长序列复杂任务上,底层能力差距仍然很明显。
他对平台的实际体感总结是:
- Claude Code:交互便捷、短平快、非常跟手,更适合快速任务
- Codex:更工程化、更 formal,在复杂长任务上更稳、更强
前端实测:多模态、UI 理解与高保真复刻能力
1. OP4.6:速度极快,但高保真和细节完成度仍有限
这是前端里最鲜明的一类选手:快,非常快。
- 生成页面大约只要 3 分钟
- 使用体验像有人在旁边实时结对编程
- 在 5—10 分钟 这个时间窗口里,佳宏认为很难有模型做得比它更好
但它的问题也很明显:
- 把 Next.js 的调试入口误识别成页面 UI 元素
- 卡片效果、渐变色、排版细节都没完全还原
- 时间线位置、筛选弹窗逻辑、局部样式都有偏差
- 整体更像是“骨架做出来了”,而不是“页面被高保真复刻了”
佳宏对它的评价是:
如果目标是迅速起一个可运行的前端雏形,它非常强;但如果目标是复杂页面的精细复刻,它并不是最优解。
2. GLM5:看懂了大类场景,但没有真正做对任务
GLM5 的问题不是完全没产出,而是产出了一个“像那么回事”的错误答案。
它大致识别出这是一个类似博客或信息展示页面,于是套出了一个相近方向的结构;但问题在于:
- 原页面核心是 KOL 观点卡片与信息汇总
- 它却把很多内容理解成了人物介绍
- 真正关键的 card 结构、信息组织逻辑、设计表达都偏了
佳宏特别强调,这类错误对开发者最折磨:
因为表面上模型“做了东西”,但实际距离目标很远,修它的时间成本可能比重来还高。
3. GPT5.4:前端综合能力最强,长任务优势明显,但时间和成本更高
这是佳宏在本次前端测试中评价最高的模型。
他给出的对比很直观:
- GPT5.2 做类似页面,可能要 4 小时、消耗约 800 万 tokens
- GPT5.4 则可能压缩到 不到 1 小时、约 200 万—300 万 tokens
在结果上,GPT5.4 的页面复刻质量明显更高:
- 下拉框设计、颜色风格、整体排版更接近原稿
- 复刻程度肉眼可见地领先于其他模型
- 但依然存在小 bug 与局部偏差,比如:
- 点击外围无法自动收起
- 某些地方只能单选
- 设置弹窗位置不对
- card 的排布与细小加粗风格没有完全跟上
尽管如此,佳宏仍然给出了非常明确的判断:
在这次项目和测试设定下,GPT5.4 是前端复杂长任务里最强的模型。
他同时强调一个很关键的工程现实:
编程任务的难度不是线性上升,而是后半段呈指数级变难。
从 0 做到 80 分,和从 80 分抠到 100 分,时间复杂度完全不是一个量级。
4. MiniMax 2.7:前端短板明显,关键原因是多模态不足
MiniMax 在这个前端任务中的表现很弱,佳宏的结论也非常直接:
- 没有足够的多模态能力,前端复刻基本无从谈起
- 即便借助外部 OCR 管道把图片转成文字,也无法补足排版、层次、风格这些关键信息
- 连前端框架的基本使用都出现了问题
因此,他把一个判断说得很明确:
如果模型不具备足够的多模态能力,它的编程能力很难在前端场景里真正体现,更多只能在后端文本类任务里发挥。
5. Gemini 3.1 Pro:多模态理解强,但代码稳定性与可维护性不够
Gemini 在“看懂页面”这件事上表现不错:
- 多模态能力强
- 能较好复制截图中的文字与布局信息
- 整体视觉效果比很多国产模型更接近目标
但佳宏对它的代码质量评价不高,问题主要集中在:
- 页面会异常刷新
- 存在 bug
- 一些功能虽然看起来做了,但并不稳定
- 放到更大、更长期维护的代码库里,会让人不放心
因此它呈现出一种很典型的特征:
看图能力强,实现层的稳定性和工程质量不够。
6. Kimi 2.5:比 GLM5 稍好,但明显偏模板化
Kimi 至少保留了一些 card 的感觉,没有像 GLM5 那样完全做偏类型。
但佳宏认为,它更像是从已有模板库中抽出了一个相近样式,而不是真正理解了需求。
他对 Kimi 的判断是:
- 形式上比 GLM5 更接近目标
- 但本质上仍然是在“套模板”
- 对用户意图的跟随不够深
- 更像一个熟练应付考试题的学生,而不是一个真正理解设计意图的协作者
7. Qwen 3.6:国产模型里最接近“可用门槛”的前端选手
这是本次前端实测里,国产模型中最让佳宏感到意外的一家。
他的核心感受是:
Qwen 3.6 是一众国产模型里,少数真正“跟得上意图”的。
具体表现包括:
- 在没有把 prompt 写到极度细碎的情况下,也能大体理解要做什么
- 相比 GLM5、Kimi、MiniMax,它更像是在认真完成“复刻这个页面”这件事
- 在前端任务中,它表现出了比较强的自检意识,会大量调用 Playwright 去检查页面排版和实现情况
但它距离 GPT5.4 和 OP4.6 仍有明显差距,主要问题是:
- 细节错误较多,例如日期都可能复制错
- 悬浮窗、局部交互和布局仍然不到位
- 工具调用稳定性和整体编码质量还不够成熟
- 想把它修到 GPT 或 Gemini 的首轮水平,开发者可能还要多发 5—10 轮 prompt,再投入 3—5 小时
佳宏给出的结论很鲜明:
在这次前端实测里,Qwen 3.6 是国产模型中最有“国产替代可用感”的一个。
他甚至直说,如果海外模型完全不能用,自己会转向 Qwen 3.6。
8. 前端测试的一个核心发现
经过这一轮前端实测,佳宏反复强调的不是单点胜负,而是一个更普遍的规律:
前端任务里,多模态能力、意图理解能力、自检能力,往往比“单纯会写代码”更重要。
因为很多设计细节、交互意图、风格要求,本来就很难通过文字完整表达。
真正强的模型,应该能靠截图、上下文和少量提示,把大量“说不出来的东西”补齐。
后端实测:根因定位、方案优雅性与长序列稳定性
1. 测试问题本身
这个 bug 的现象很简单:
邮件日报里的头像显示不出来。
但佳宏强调,这个题的难点不在“看懂表象”,而在“沿着正确链路找出真正根因,并给出优雅修法”。
实际根因是:
- 邮件里用的是公网头像 URL
- 手机端不挂代理就访问不了
- 但系统本地数据库里其实已经缓存了 KOL 头像
- 正确思路应该是:邮件改用本地服务提供的头像地址
- 而且头像 URL 还带有版本参数 -v
- 这个参数如果漏掉,会让后续维护与运行继续出问题
佳宏把这个问题拆成了几个层次:
- 看到“头像坏了”只是最表面的现象
- 找到“公网 URL 不可达”才算定位到根因
- 能进一步发现“本地数据库已有缓存头像”
- 最后还能注意到 -v 版本参数,才接近满分答案
而这一切,发生在一个大约 5 万行代码、数百文件夹 的真实仓库里。
2. GPT5.4:后端综合能力最强
在后端 bug 排查中,GPT5.4 依然是佳宏给出的第一名。
它基本完成了所有关键层级:
- 找对了邮件流程和相关代码位置
- 找到了根因
- 提出了正确修复方向
- 识别到了 -v 这个关键版本参数
佳宏对它的评价是:
在长序列复杂任务里,GPT5.4 的整体能力最强。
它的问题主要不是方向错,而是有时表述比较绝对,但这在他看来属于小问题,不影响总体判断。
3. OP4.6:很强,但少了关键一环
OP4.6 在后端任务上也很强,主要短板是:
- 没有识别到 -v 参数
这意味着它虽然方向基本对了,但还需要再多一轮人类介入测试与反馈。
佳宏专门解释了为什么这不是小事:
在这类需要真实发邮件、等待结果、人工确认的任务里,
哪怕只差这样一个点,也会让开发者多花 10—20 分钟,甚至更多。
所以 OP4.6 在后端并不是“不会”,而是:
它足够强,但还不够严谨到一次到位。
4. MiniMax 2.7:后端分析能力不错,但方案偏暴力,且长序列约束风险明显
MiniMax 在后端的表现,比前端好得多,这也是佳宏觉得比较惊讶的地方。
它的优点是:
- 文本分析能力不错
- 长任务里的分析结果有一定质量
- 反应也比较快
但它有两个非常关键的问题。
第一,修法不够优雅。
它倾向于建议后端放宽对 -v 的校验,以尽快把 bug 修过去。
这类方案短期有效,但会破坏系统的长期严谨性和可维护性。
在佳宏看来,这种修法就像为了图省事,把本来应该精修的结构直接改粗放了。
第二,长序列任务里的约束记忆不稳。
在这次后端“只读调研”的设定下,佳宏明确要求模型不要改动仓库内容,只做调研分析。
但录音中提到,有三个模型仍然把调研报告直接写进了仓库根目录,这被他视为非常严重的问题;主持人当场还插话确认,Gemini 也在被批评之列。
MiniMax 是其中被佳宏重点展开讨论的一例。
这类错误为什么严重?
因为它说明模型在长步骤过程中会忘掉关键限制条件。
在真实开发里,这不是“小毛病”,而是可能破坏仓库、污染工作流、制造额外清理成本的风险点。
因此,佳宏对 MiniMax 的结论是:
后端分析能力值得注意,但权限、约束和长期维护风险必须严防。
5. Gemini 3.1 Pro:能看出问题,但方案不够工程化
Gemini 在后端不是完全没找对方向,但给出的方案同样偏粗糙。
佳宏的核心批评点不是“它看不出 bug”,而是:
- 它的方案对长期维护不友好
- 放到成熟代码库里,会让系统越修越难维护
- 在工程性上,明显不如 GPT5.4 和 OP4.6
加上前面提到的“只读调研任务中仍向仓库写报告”的问题,Gemini 在真实协作环境中的可信度就会被进一步打折。
6. Qwen 3.6:国产模型里整体最稳,但关键细节仍差一层
Qwen 3.6 在后端整体上依然是国产模型中较好的一个。
它的问题不是完全没看懂,而是没看到最关键的最后一层细节:
- 它没有意识到头像 URL 里还需要 -v 参数
- 因此最终方案仍然不够完整
这意味着它在后端的水平,大致可以理解为:
- 主路径能走通
- 主要问题也能大体看见
- 但和 GPT5.4、OP4.6 相比,在“精确到位”这一步上仍有差距
结合前后端两轮测试,佳宏对 Qwen 3.6 的总体评价是:
在国产模型里,它已经是最接近可用门槛的一档。
7. GLM5 与 Kimi 2.5:分析链路本身就跑偏了
这两家在后端任务中的问题,不只是方案粗暴,而是分析路径本身就没有走对。
佳宏的观察是:
- 它们没有充分意识到本地数据库里已经缓存了头像这件事
- 对代码仓库真实结构的理解不够透
- 给出的方案偏暴力
- 其中 Kimi 2.5 甚至把分析路径带到了测试代码,而不是实际问题所在的代码链路上
在一个大型真实项目里,这类问题意味着:
它不是“修得不够好”,而是根本没进入正确问题空间。
价格、时间与真实使用体验
1. 时间与成本不能脱离任务看
佳宏反复强调:
“哪个模型最好”没有脱离任务的统一答案。
在这次实测里可以看到很明显的取舍:
- OP4.6:非常快,适合短平快任务
- GPT5.4:更慢、更贵,但在复杂长任务上更值得
- 国产模型价格普遍便宜,尤其 MiniMax,其次是 Kimi 和 Qwen
- 但如果模型首轮结果偏差太大,需要反复补 prompt、反复返工,那么“便宜”未必真的便宜
主持人与佳宏也讨论到一个现实问题:
虽然 GPT 某些单价项目未必比 OP4.6 高很多,但由于它会跑更久、消耗更多 tokens,一个完整任务的总成本可能反而更高。
不过反过来说,如果 OP4.6 在某类复杂任务上无论怎么加 tokens 都达不到 GPT5.4 的质量,那只看单价也没有意义。
结论不是“谁更便宜”,而是“总投入换来的可用结果值不值”。
2. 不同模型的协作风格像不同的人
佳宏把不同模型的使用体验总结得很形象:
- OP4.6:做事很快、很急、信心很足,像一个“向上管理高手”
- GPT5.4 / Codex:更严谨,会逐条复核,会清楚告诉你哪里还没做到位
作为开发者,他明显更偏爱后者。
原因很简单:
开发者真正需要的不是一句“已经完成”,而是清楚知道“哪里还没完成”。
Agent、Prompt 与 Skill:真正的瓶颈开始转向人类侧
1. 对强模型的依赖已经出现
在主持人追问下,佳宏明确表示,自己已经对模型形成明显依赖。
他甚至说,自己最近大约 80% 的时间都在和 Codex 与各种 agent 打交道,并想写一篇题为“活在 agent 中的人”的文章。
这种依赖不是抽象概念,而是日常工作方式已经发生变化:
- 复杂任务交给 agent
- 与模型频繁协同
- 未来很多事情可能变成 agent 对 agent 的协调
比如约会面、排时间、确认冲突、自动安排
但他也做了区分:
他更难离开的是 GPT5.4 / Codex 这类长任务能力更强的系统,不是所有模型都具有同等替代性。
2. 真正的焦虑不再只是 token,而是“人会不会提需求”
佳宏提到,外界常把 AI 焦虑理解成“token 烧得太快”,但他自己的真实感受是:
真正的焦虑越来越来自人类自身——能不能写出高质量 prompt,能不能持续理解上下文,能不能给出正确决策。
他给出一个很重要的悖论:
- Agent 让人看上去摆脱了很多细节
- 但如果人离一线细节太远
- 到了项目复杂起来的时候,人会开始听不懂 agent 在说什么
- 一旦听不懂,就无法给出正确判断
- 项目就会在原地打转
因此,Agent 时代并不是“人可以完全不懂细节了”,而是:
人必须学会在更高层面保持对复杂系统的理解与指挥能力。
3. Skill 是通用的,但强模型能极大降低沟通成本
围绕 skill 文档,讨论得出了一个非常实用的结论:
- Skill 本身具有通用性
- 但面对强模型时,可以写得更短、更抽象、更高层
- 面对弱模型时,必须写得更细、更全、更不厌其烦
佳宏非常认同这一点,并把它视为强模型最大的现实价值之一:
和聪明模型不需要说太多话。
这件事为什么重要?
因为把一件事情事无巨细地写清楚,本身就是高成本脑力劳动。
如果模型越弱,人类就越要把大量精力花在补充说明上;
而模型越强,人类就越能把精力放在更关键的判断上。
4. 使用 Agent 的一个工程观变化
佳宏还谈到一个工作习惯上的变化:
一开始,人会很想亲自去改 agent 写出的笨代码;
但到后面会逐渐意识到,更重要的是让 agent 拥有完整上下文、修改历史和技能积累,让它在犯错中学习和沉淀。
这和传统组织管理很像:
不是所有错误都靠领导亲自下场修,而是让体系积累经验、形成能力。
对模型格局与未来演进的判断
1. 为什么他认为头部海外模型的优势会继续存在
这部分是佳宏基于一线使用经验给出的判断,不是经过独立验证的行业定论。
他的理由主要有三层。
第一,优秀模型会吸引优秀用户和高价值任务
他的看法很直接:
顶尖开发者、更复杂的编程任务,通常优先流向 GPT5.4 和 OP4.6。
这样一来,头部模型拿到的是更高质量、更复杂、更长序列的真实任务数据;而较弱模型拿到的往往是更普通的场景。
这会形成一种正反馈:
强模型吸引强用户,强用户又反过来给强模型喂更有价值的数据。
第二,头部模型正在进入“模型自训练”阶段
佳宏认为,GPT5.4 和 OP4.6 已经表现出更明显的模型自训练尝试。
相比普通用户只能提供 prompt 和文本反馈,模型厂商自己掌握的是:
- 全部生成轨迹
- 每一步输出过程
- 更底层的训练与注意力信息
这意味着,未来更可信的提升方向,很可能不是单靠人类海量写 prompt,而是模型自己训练自己。
至于坊间关于部分国产模型是否蒸馏海外模型的传言,他提到过,但也明确表示自己没有足够信息证实。
第三,从 60 分到 90 分不是线性投入,而是工业化重资产过程
他用一个比喻来说明这个差距:
很多人以为大模型只是从 2022、2023 年突然爆发,到今天时间还不长,好像大家都能追一追;
但在他看来,这更像是:
- 2023 年只是“第一辆福特汽车下线”
- 而现在已经是“宝马在公路上跑”
也就是说,模型训练已经不再只是单次实验,而是一条巨大的工业流水线。
从 0 做到 60 分、70 分,也许 6—8 个月还能实现;但从 70 分往 90 分爬,需要的是无止境的资源、数据、时间和工程体系。
2. 对下一轮技术跃升的判断
主持人最后问:2026 年海外头部模型还会不会再来一轮显著跃升?
佳宏的回答非常明确,甚至带有纠正意味:
“不是已经有了吗?这一轮显著跃升在他看来其实已经发生了。”
在此基础上,他进一步判断:
- 下一代模型还会继续增强
- 增量重点很可能体现在:
- 更强的长周期问题处理能力
- 更深的思考能力
- 逐步替代部分科研工作
- 如果模型的确定性继续提高,它对大量白领、文案类、知识型工作的替代也会更稳定、更直接
综合归纳
基于这次单一真实项目、统一测试流程下的实测,可以提炼出几条非常清晰的结论:
-
公开榜单越来越难反映真实开发差异。
真正重要的是摩擦成本、遗漏率、返工成本、可维护性,而不是只看任务是否“表面完成”。 -
前端任务里,多模态理解、UI 还原、自检能力决定上限。
在这次测试里,GPT5.4 前端综合最强,OP4.6 胜在速度,Gemini 多模态强但代码稳定性欠佳,Qwen 3.6 是国产里最接近可用门槛的一档。 -
后端任务里,真正拉开差距的是长序列分析、根因定位与方案优雅性。
在这次测试里,GPT5.4 整体最好,OP4.6 只差最后一层严谨性;国产模型中,Qwen 3.6 与 MiniMax 相对更值得关注,但前者更稳、后者在约束遵守和长期维护上风险更大。 -
“会修 bug”不等于“会做工程”。
很多模型能把眼前问题压下去,但会用粗暴方式破坏系统结构;而真实开发最怕的,恰恰是这种“今天修通、明天难维护”的方案。 -
强模型的现实价值,不只是答案更准,而是显著降低人类沟通成本。
模型越强,开发者越不需要把 prompt 和 skill 写到事无巨细;模型越弱,人类越要替它补齐大量上下文。 -
Agent 时代的瓶颈开始从模型侧部分转移到人类侧。
未来高效使用模型的人,未必是最会“点按钮”的人,而是最能提出高质量需求、持续理解复杂上下文、并在关键节点给出正确判断的人。
适用范围与需保留的边界
- 上述结论都建立在佳宏自己熟悉的真实项目、这次具体任务设定和当时的平台接入条件之上,不宜直接当作跨场景、跨项目的绝对排名。
- 部分 token、时间、成本数据是基于实际使用过程的统计或估算,佳宏也明确说过,并非所有平台都能拿到完整、严格一致的 coding plan 数据。
- 像 Qwen 3.6 在百炼平台上出现请求大小超限 这类问题,佳宏判断更像平台适配问题,不完全应归因于模型本身。
- “只读调研时向仓库写报告”的问题,录音中明确提到有三个模型出现,主持人现场点到 Gemini 也在其中,但并未在后续逐一完整展开三者名单,因此只能做保守表述。
- 关于海外领先优势、自训练壁垒、国内模型蒸馏传言、未来替代科研或白领工作的判断,均属于佳宏基于一线经验给出的分析,不是经独立验证的行业共识。