AI Gateway Mon Jun 29 2026 00:00:00 GMT+0000 (Coordinated Universal Time) 推理时计算多模型协作模型评估Mixture-of-AgentsSakana AIHermes AgentNous Researchinference-time scaling

大家都在等更大的模型，但增量可能在别处

每次任务卡住，做 AI 的人第一反应基本都一样。

要么是等，等 GPT 下一代、等 Claude 下一代，总觉得再强一点就够了；要么是换，掏更多的钱上更大更贵的模型。我自己也经常这样，下意识就觉得，能力不够嘛，那肯定是模型不够强。

但最近有两件事，一前一后，让我重新想了想这个惯性。

一件是 Sakana AI 干的，他们把好几个前沿模型凑在一起组队解题。另一件更新，就在前两天，Nous Research 给他们那个开源的 Hermes Agent 推了个新功能，叫 Mixture of Agents，简称 MoA，说白了就是让你把好几个模型捏成一个来用。

这两件事玩法不一样，但其实指向同一个我之前没太当回事的点：还是那几个现成的模型，把它们的用法变一变、让它们组队配合，答案的好坏就能差出一大截。 提升效果这件事，真不一定非得死等更强的模型。

我琢磨了一下，越想越觉得这事被低估了。

提升 AI 能力，其实有两条路

提升模型能力，大家最熟的是第一条路，训练时下功夫。数据喂更多、参数堆更大、训得更久，最后训出一个更强的基座模型。

这条路当然管用，但你也看到了，越来越贵，回报还越来越薄。花十倍的钱，能力涨不了十倍。数据快用完了，卡也快堆到头了，连大厂都开始喊累。普通团队就更别提，那个数据你没有，那个钱你也烧不起。

还有第二条路，叫推理时。意思是模型已经训好、参数也不再变了，但你在用它的时候，还能在回答这一步上做文章——让它回答前多想几步，或者让几个模型搭着一起用。

这条路你其实早就见过。o1、o3 那种会「想久一点」的 thinking 模型，干的就是这事——多想几步、自己回头检查、发现错了再改。同样的参数，让它多想一会儿，答案就是不一样。

inference-time scaling，推理时扩展，这词最近挺火，但大家聊的基本都是单个模型自己多想。Sakana 和 Hermes 这两家厉害就厉害在，把这条路从「一个模型」推到了「一群模型」。

Sakana 让模型组队，把谁都搞不定的题做出来了

Sakana AI 这套东西叫 AB-MCTS，还挺大方，直接开源了，叫 TreeQuest。名字有点学术，别被吓到，核心思路很简单。

让一个模型解难题，无非两种走法。一种是顺着已经写的答案往下改、往深里挖；另一种是觉得这思路不行，推倒重来换个角度。

AB-MCTS 第一件聪明的事，就是每一步都动态决定，这次到底接着深挖，还是另起炉灶。这是第一个维度。

第二个维度我觉得更有意思。它还会挑这一步派哪个模型上。一开始几个模型轮着试，跑着跑着系统就摸清了——这类题 Gemini 靠谱，那类题 DeepSeek 稳，那就多给表现好的那个机会。等于边解题边搞清楚谁是哪方面的专家。

结果也挺说明问题。他们拿 o4-mini、Gemini-2.5-Pro、DeepSeek-R1 组了个队，在 ARC-AGI-2 这个出了名难的推理评估上，组合成功率冲过了 30%。

但比数字更值得说的，是这句：有些题，三个模型单独上谁都做不出来，凑在一起反而做出来了。 这就不只是把分数平均一下那么简单，是真的多出来了单个模型给不了的能力。

还有个意外收获。每个模型瞎编（也就是幻觉）的点不太一样，你把一个不爱瞎编的搭进去，组合既保住了推理能力，又顺手把胡说八道的概率压了下去。

前两天 Hermes 这个 MoA，你今天就能上手

Sakana 那套是研究，离普通人上手还有点距离。但就在前两天，Nous Research 给开源的 Hermes Agent 推了个叫 MoA 2.0 的功能，这个你今天就能用，思路也更直白。

它让你把任意几个模型——不管是 Opus、GPT 还是别的家——捏成一个「预设」，然后当成一个普通模型来调。背后是这么运作的。

你提一个问题，Hermes 先把它发给两三个「参考模型」，它们各自独立想一遍，给出分析和建议。注意一个细节，这些参考模型只读对话内容，不给它们系统提示、也不让它们碰工具，它们更不直接回复你——纯当参谋。

接着有个「聚合模型」（aggregator），把这些参谋的意见收齐，带着完整的工具和系统提示，真正去执行：该调工具调工具，写出最终那版回答。说白了，参考模型负责出主意，聚合模型负责拍板和执行，分工很清楚。

效果上，Nous 自己给了组数据。在他们的 HermesBench 上，用 Claude Opus 4.8 加 GPT-5.5 组的这个 MoA 预设，拿了 82.02%；而 Opus 4.8 单独跑是 76.07%，GPT-5.5 单独是 74.12%。组在一起，比里头最强的那个还高出 8%。

两个单独上谁也没赢，凑在一起反而反超了——这跟 Sakana 那边看到的，是一模一样的现象。

不过这儿我得提醒你一句。HermesBench 是 Nous 自己搞的评估，完整榜单还没公开，数字也是他们自己报的。所以这个 82% 你可以先记下，但别急着当结论，等第三方复现了再说。

还有几个工程细节我觉得挺加分。一个是它没把 prompt caching 搞坏——长对话那段公共前缀还留着，你多花的只是几次参考模型的调用钱，不用把缓存整个打碎重来（做过 Agent 的都懂，缓存被打碎有多亏）。再一个是容错，某个参考模型挂了（比如 key 失效），这一轮不会整个崩，它把「这个没返回」记一笔，拿剩下能用的接着跑。它还不允许嵌套，聚合模型自己不能又是一个 MoA 预设，免得无限递归。

这两件事放在一起看，信号特别明确

一个是研究里用树搜索一步步迭代，一个是产品里并行出主意再聚合，手法差得很远，但说的是同一件事：模型训完之后，把一群模型在推理时组织起来协作，能榨出单个模型榨不出的能力。 一个研究、一个产品，前后脚撞在同一个点上，这就更不像巧合了。

Sakana 自己有句话我特别认同。他们说思路从「mixing to create」变成了「mixing to use」——以前是把好几个模型揉成一个新模型（模型融合那套），现在是直接拿现成的顶级模型，用的时候让它们组队。

往深了说这是笔账。训练那条路，投入越来越大、回报越来越薄；推理这条路，基本不用重新训，把现有模型的调用方式重新编排一下，就能换来看得见的提升。

所以我才说，推理时这条路被严重低估了。大部分团队一遇到瓶颈，脑子里就蹦出「等更强的模型」这一个念头，压根没想过「还是这几个模型，换个用法」也能往前走一大步。

别光看好的，工程上的坑是真坑

话说回来，这事不是白捡的便宜，真上手你立马就知道难受在哪。

最直接的是烧钱。本来一个问题调一次模型就完事，现在你得先让两三个参考模型各跑一遍，再让聚合模型跑一遍，token 成本基本就是翻几倍。Nous 自己都直说了，这功能建议只用在最重要的那 10% 任务上，别全程开着，不然账单很难看。

除了贵，它也会让响应变慢一些。道理很简单，得先等参考模型给完意见，聚合模型才能动手，等于比平时多走了一轮。好在几个参考模型是并行跑的，不用一个接一个排队，所以慢的程度没有成本涨得那么夸张，但比起单模型直接回答，终归要多等一会儿。

还有复杂度，但这个得分两种情况看。如果你就是直接用 Hermes 这种现成工具，那调度、重试、评估它都替你做好了，你不用操心。可一旦你想把多模型组队搬进自己的产品、自己的企业系统，这套复杂度就全压到你头上了：管一堆模型的调用、处理失败重试、还得给每一版中间结果做评估——判断这版到底好不好，业内常把这件事叫 Evaluation，简称 Eval。AB-MCTS 判断哪条路值得走下去，靠的就是这套评估。评估做不好，整套组队就是在原地空转，纯烧钱。

而评估这事，恰恰是最难的部分。有标准答案的任务好说，对一下就知道对不对；可一旦碰上写文案、出方案、改代码这种开放题，「这版到底好不好」就很难一句话讲清。很多团队最后只能再拉一个模型来当裁判，让它去评估，可裁判自己也会看走眼。说真的，你想靠组队提升效果，前提是手里得先有一套靠谱的评估，这块要是虚的，前面做的那些全白搭。

那到底什么时候值得上，得想清楚。

值得的，大概是那种价值高、又难、还不催着你毫秒级返回的活儿：复杂代码生成、深度分析、硬核推理。慢点贵点无所谓，能做出来就是赚的。

不值得的也很好认。高频的、要求实时的、本来单个模型就答得挺好的，你非套一层组队，纯属给自己添延迟、给账单添麻烦。

给同样在做 AI 工程的你几条实在话

最后落几条能直接拿去用的。

第一，下次能力卡住，先别急着等新模型、换贵模型。先问自己一句：这个任务，是不是靠现在手里这几个模型，换个用法、组个队就解决了。

第二，学会判断任务配不配。价值高、能忍受慢、单模型确实顶不上去，这三条都占了，推理时编排才值得试；占不全，就别硬来。

第三，多模型组队真要落地，工程上得有一层东西来承接：把一堆模型的调用统一管起来，在它们之间传中间结果，做调度和重试。你仔细想想，这层要解决的，跟企业搞多模型管理、搭 AI Gateway 面对的，根本是同一拨问题。

第四，评估这块，千万别当成锦上添花，它就是地基。不管你用哪种组队法，系统都得先能判断「这版答案到底行不行」，才走得下去。手里没有一套靠谱的评估，所谓组队就退化成随机乱猜。

给 AI 工程师的四条判断：先别等新模型、看任务配不配、编排要有承接层、评估是地基

说到底，这两件事最值钱的，真不是评估分数又涨了几个点这么简单。它真正点醒我的是一件特别容易被忽略的事：提升 AI 能力，从来不止「把模型本身做得更强」这一条路；怎么把现有的模型组织起来用，一样能拉开差距，而这条路现在还被严重低估。

如果你也在琢磨多模型怎么管、怎么编排、怎么给结果做评估，欢迎一起聊聊。