大家都在等更大的模型,但增量可能在别处
每次任务卡住,做 AI 的人第一反应基本都一样。
要么是等,等 GPT 下一代、等 Claude 下一代,总觉得再强一点就够了;要么是换,掏更多的钱上更大更贵的模型。我自己也经常这样,下意识就觉得,能力不够嘛,那肯定是模型不够强。
但最近有两件事,一前一后,让我重新想了想这个惯性。
一件是 Sakana AI 干的,他们把好几个前沿模型凑在一起组队解题。另一件更新,就在前两天,Nous Research 给他们那个开源的 Hermes Agent 推了个新功能,叫 Mixture of Agents,简称 MoA,说白了就是让你把好几个模型捏成一个来用。
这两件事玩法不一样,但其实指向同一个我之前没太当回事的点:还是那几个现成的模型,把它们的用法变一变、让它们组队配合,答案的好坏就能差出一大截。 提升效果这件事,真不一定非得死等更强的模型。
我琢磨了一下,越想越觉得这事被低估了。
提升 AI 能力,其实有两条路
提升模型能力,大家最熟的是第一条路,训练时下功夫。数据喂更多、参数堆更大、训得更久,最后训出一个更强的基座模型。
这条路当然管用,但你也看到了,越来越贵,回报还越来越薄。花十倍的钱,能力涨不了十倍。数据快用完了,卡也快堆到头了,连大厂都开始喊累。普通团队就更别提,那个数据你没有,那个钱你也烧不起。
还有第二条路,叫推理时。意思是模型已经训好、参数也不再变了,但你在用它的时候,还能在回答这一步上做文章——让它回答前多想几步,或者让几个模型搭着一起用。
这条路你其实早就见过。o1、o3 那种会「想久一点」的 thinking 模型,干的就是这事——多想几步、自己回头检查、发现错了再改。同样的参数,让它多想一会儿,答案就是不一样。
inference-time scaling,推理时扩展,这词最近挺火,但大家聊的基本都是单个模型自己多想。Sakana 和 Hermes 这两家厉害就厉害在,把这条路从「一个模型」推到了「一群模型」。
Sakana 让模型组队,把谁都搞不定的题做出来了
Sakana AI 这套东西叫 AB-MCTS,还挺大方,直接开源了,叫 TreeQuest。名字有点学术,别被吓到,核心思路很简单。
让一个模型解难题,无非两种走法。一种是顺着已经写的答案往下改、往深里挖;另一种是觉得这思路不行,推倒重来换个角度。
AB-MCTS 第一件聪明的事,就是每一步都动态决定,这次到底接着深挖,还是另起炉灶。这是第一个维度。
第二个维度我觉得更有意思。它还会挑这一步派哪个模型上。一开始几个模型轮着试,跑着跑着系统就摸清了——这类题 Gemini 靠谱,那类题 DeepSeek 稳,那就多给表现好的那个机会。等于边解题边搞清楚谁是哪方面的专家。
结果也挺说明问题。他们拿 o4-mini、Gemini-2.5-Pro、DeepSeek-R1 组了个队,在 ARC-AGI-2 这个出了名难的推理评估上,组合成功率冲过了 30%。
但比数字更值得说的,是这句:有些题,三个模型单独上谁都做不出来,凑在一起反而做出来了。 这就不只是把分数平均一下那么简单,是真的多出来了单个模型给不了的能力。
还有个意外收获。每个模型瞎编(也就是幻觉)的点不太一样,你把一个不爱瞎编的搭进去,组合既保住了推理能力,又顺手把胡说八道的概率压了下去。
前两天 Hermes 这个 MoA,你今天就能上手
Sakana 那套是研究,离普通人上手还有点距离。但就在前两天,Nous Research 给开源的 Hermes Agent 推了个叫 MoA 2.0 的功能,这个你今天就能用,思路也更直白。
它让你把任意几个模型——不管是 Opus、GPT 还是别的家——捏成一个「预设」,然后当成一个普通模型来调。背后是这么运作的。
你提一个问题,Hermes 先把它发给两三个「参考模型」,它们各自独立想一遍,给出分析和建议。注意一个细节,这些参考模型只读对话内容,不给它们系统提示、也不让它们碰工具,它们更不直接回复你——纯当参谋。
接着有个「聚合模型」(aggregator),把这些参谋的意见收齐,带着完整的工具和系统提示,真正去执行:该调工具调工具,写出最终那版回答。说白了,参考模型负责出主意,聚合模型负责拍板和执行,分工很清楚。
效果上,Nous 自己给了组数据。在他们的 HermesBench 上,用 Claude Opus 4.8 加 GPT-5.5 组的这个 MoA 预设,拿了 82.02%;而 Opus 4.8 单独跑是 76.07%,GPT-5.5 单独是 74.12%。组在一起,比里头最强的那个还高出 8%。
两个单独上谁也没赢,凑在一起反而反超了——这跟 Sakana 那边看到的,是一模一样的现象。
不过这儿我得提醒你一句。HermesBench 是 Nous 自己搞的评估,完整榜单还没公开,数字也是他们自己报的。所以这个 82% 你可以先记下,但别急着当结论,等第三方复现了再说。
还有几个工程细节我觉得挺加分。一个是它没把 prompt caching 搞坏——长对话那段公共前缀还留着,你多花的只是几次参考模型的调用钱,不用把缓存整个打碎重来(做过 Agent 的都懂,缓存被打碎有多亏)。再一个是容错,某个参考模型挂了(比如 key 失效),这一轮不会整个崩,它把「这个没返回」记一笔,拿剩下能用的接着跑。它还不允许嵌套,聚合模型自己不能又是一个 MoA 预设,免得无限递归。
这两件事放在一起看,信号特别明确
一个是研究里用树搜索一步步迭代,一个是产品里并行出主意再聚合,手法差得很远,但说的是同一件事:模型训完之后,把一群模型在推理时组织起来协作,能榨出单个模型榨不出的能力。 一个研究、一个产品,前后脚撞在同一个点上,这就更不像巧合了。
Sakana 自己有句话我特别认同。他们说思路从「mixing to create」变成了「mixing to use」——以前是把好几个模型揉成一个新模型(模型融合那套),现在是直接拿现成的顶级模型,用的时候让它们组队。
往深了说这是笔账。训练那条路,投入越来越大、回报越来越薄;推理这条路,基本不用重新训,把现有模型的调用方式重新编排一下,就能换来看得见的提升。
所以我才说,推理时这条路被严重低估了。大部分团队一遇到瓶颈,脑子里就蹦出「等更强的模型」这一个念头,压根没想过「还是这几个模型,换个用法」也能往前走一大步。
别光看好的,工程上的坑是真坑
话说回来,这事不是白捡的便宜,真上手你立马就知道难受在哪。
最直接的是烧钱。本来一个问题调一次模型就完事,现在你得先让两三个参考模型各跑一遍,再让聚合模型跑一遍,token 成本基本就是翻几倍。Nous 自己都直说了,这功能建议只用在最重要的那 10% 任务上,别全程开着,不然账单很难看。
除了贵,它也会让响应变慢一些。道理很简单,得先等参考模型给完意见,聚合模型才能动手,等于比平时多走了一轮。好在几个参考模型是并行跑的,不用一个接一个排队,所以慢的程度没有成本涨得那么夸张,但比起单模型直接回答,终归要多等一会儿。
还有复杂度,但这个得分两种情况看。如果你就是直接用 Hermes 这种现成工具,那调度、重试、评估它都替你做好了,你不用操心。可一旦你想把多模型组队搬进自己的产品、自己的企业系统,这套复杂度就全压到你头上了:管一堆模型的调用、处理失败重试、还得给每一版中间结果做评估——判断这版到底好不好,业内常把这件事叫 Evaluation,简称 Eval。AB-MCTS 判断哪条路值得走下去,靠的就是这套评估。评估做不好,整套组队就是在原地空转,纯烧钱。
而评估这事,恰恰是最难的部分。有标准答案的任务好说,对一下就知道对不对;可一旦碰上写文案、出方案、改代码这种开放题,「这版到底好不好」就很难一句话讲清。很多团队最后只能再拉一个模型来当裁判,让它去评估,可裁判自己也会看走眼。说真的,你想靠组队提升效果,前提是手里得先有一套靠谱的评估,这块要是虚的,前面做的那些全白搭。
那到底什么时候值得上,得想清楚。
值得的,大概是那种价值高、又难、还不催着你毫秒级返回的活儿:复杂代码生成、深度分析、硬核推理。慢点贵点无所谓,能做出来就是赚的。
不值得的也很好认。高频的、要求实时的、本来单个模型就答得挺好的,你非套一层组队,纯属给自己添延迟、给账单添麻烦。
给同样在做 AI 工程的你几条实在话
最后落几条能直接拿去用的。
第一,下次能力卡住,先别急着等新模型、换贵模型。先问自己一句:这个任务,是不是靠现在手里这几个模型,换个用法、组个队就解决了。
第二,学会判断任务配不配。价值高、能忍受慢、单模型确实顶不上去,这三条都占了,推理时编排才值得试;占不全,就别硬来。
第三,多模型组队真要落地,工程上得有一层东西来承接:把一堆模型的调用统一管起来,在它们之间传中间结果,做调度和重试。你仔细想想,这层要解决的,跟企业搞多模型管理、搭 AI Gateway 面对的,根本是同一拨问题。
第四,评估这块,千万别当成锦上添花,它就是地基。不管你用哪种组队法,系统都得先能判断「这版答案到底行不行」,才走得下去。手里没有一套靠谱的评估,所谓组队就退化成随机乱猜。
说到底,这两件事最值钱的,真不是评估分数又涨了几个点这么简单。它真正点醒我的是一件特别容易被忽略的事:提升 AI 能力,从来不止「把模型本身做得更强」这一条路;怎么把现有的模型组织起来用,一样能拉开差距,而这条路现在还被严重低估。
如果你也在琢磨多模型怎么管、怎么编排、怎么给结果做评估,欢迎一起聊聊。