模型治理 2026-06-30 多模型协作MoA组织行为学企业 AI组织变革

AI 对组织架构变革的思考

把 Sakana AI 的 AB-MCTS 和 Nous Research 在 Hermes Agent 上做的 Mixture of Agents（下称 MoA）放在一起看，最常见的解读是：现有模型换一种组织方式使用，靠推理时计算、多模型协作，也能显著提高表现。

但从组织行为学的角度，这个解读还不够。

它们真正指向的，是企业开始把一部分组织过程外化成可计算的推理过程——搜索、分工、复核、争辩、聚合、记忆、授权、问责。

多模型系统正在把人类组织的协作过程，迁移进 AI 内部。

专家协作、试错学习、委员会决策、责任汇聚、组织记忆、绩效评价，原来都发生在人这边，现在被搬进了系统。

一旦这种迁移发生，组织结构、权力、责任、学习和员工身份都会跟着变。

AI 把搜方案、分工、复核、争辩、拍板、记经验这些协作动作，从人这边搬进了多模型系统内部

真正的研究对象是组织过程的算法化

Sakana AI 的 AB-MCTS 不是简单的 ensemble。

它在推理阶段动态决定是向宽处探索新方案，还是向深处改进已有方案；在 Multi-LLM AB-MCTS 里，它进一步决定哪个模型更适合当前问题。

Sakana 自己把这称为多模型的集体智能（collective intelligence）。

Hermes 的 MoA 更像一个制度化的专家委员会：reference models 先提供分析，aggregator（acting model）最终写回复并调用工具，Hermes 把 aggregator 的输出当作真实的模型回复。

所以 MoA 能不能提升分数，是次要问题。

真正值得问的是：当企业把思考、讨论、复核、决策、执行拆成多个 AI 角色时，组织结构、权力、责任、学习和员工身份会怎么变？

多模型系统在重塑组织的注意力结构

多模型系统重排组织注意力：复杂任务进来，多模型并行、聚合分配、评估器筛选，人只处理边界和高风险问责

组织理论里，Galbraith 的信息处理观点认为，组织形式与任务的不确定性相关。

当任务不确定性上升，组织必须通过信息系统、横向关系、群体问题解决等方式提升信息处理能力。

从这个角度看，Sakana 和 Hermes MoA 提供了一种新的注意力配置机制。

传统组织面对复杂问题，会开会、拉专家、找顾问、升级到管理层。

多模型系统把这个过程压缩成另一条链路：

复杂任务
→ 多个模型并行关注不同方面
→ 聚合模型或搜索算法分配注意力
→ 评估器决定哪些路径值得继续
→ 人类只处理边界、价值判断和高风险问责

这会改变组织里的注意力稀缺性。

过去，专家注意力和管理层注意力是瓶颈；未来，模型可以承担大量初级的注意力扫描。

但这并不意味着管理层消失。

管理层的职责会从亲自看所有信息，转向设计注意力的流向：哪些问题值得多模型审议，哪些必须人工介入，哪些指标决定继续探索还是停止。

这是组织设计意义上的变化。

企业多出来的，是一套分配注意力的制度。

AB-MCTS 是 March 式探索—利用的机器化

AB-MCTS 每一步在 Go wider 探索、Go deeper 利用、Select LLM 选模型之间权衡

March 在《Exploration and Exploitation in Organizational Learning》里讨论过组织学习中探索新可能性和利用旧确定性之间的张力。

他指出适应性过程容易短期有效、长期自毁：组织往往更快强化利用（exploitation），牺牲探索（exploration）。

Sakana 的 AB-MCTS 几乎是这个理论的技术化版本。

它在每一步做三类决定：

Go wider：生成新的候选方向，相当于组织探索
Go deeper：改进已有方案，相当于组织利用
Select LLM：根据过程中的表现，动态选更适合的“专家”

这对企业的启发很深：未来的 AI 组织，光建一个模型调用平台不够，还要建立组织学习算法。

在研发、战略、风控、投研、法律、产品创新里，系统可以同时保留多个假设，让不同模型推进不同假设，再用外部评估器或人类专家选择继续投入的方向。

这里也有管理学风险：谁定义 reward，谁就在定义组织学习的方向。

Sakana 的论文也指出，AB-MCTS 依赖可靠的 score evaluator，而为具体任务开发这样的评估器本身就可能很难。

也就是说，企业里的 Eval 不是一项技术测试。

它真正承载的是组织价值观的制度化表达。

你用短期点击率评分，组织就会学会迎合点击；你用合规零风险评分，组织就可能失去创新；你用老板满意度评分，AI 就会成为权力结构的放大机制。

Hermes MoA 是委员会制的产品化

MoA 把顾问权和决策权拆开：参谋出分析、aggregator 拍板、人类 DRI 担责、Governance 留痕

Cohen、March 和 Olsen 的垃圾桶模型认为，在组织决策中，问题、解决方案、参与者和选择机会常常是松散耦合的。

决策并不总是线性的理性选择，而经常是多个流在某个时点偶然汇合。

Hermes MoA 可以理解成一种结构化的垃圾桶，它把原来混乱的会议过程制度化了：

问题流：用户任务
参与者流：reference models
方案流：各模型的分析
选择机会：aggregator 生成最终回答并调用工具
责任出口：aggregator 的 response 被视为正式的模型回复

这比大家一起聊天的多 agent 更像正式组织。

Hermes 文档明确规定：reference models 只提供分析，aggregator 是 acting model，负责最终回复和工具调用；reference 的输出会作为私有上下文交给 aggregator。

管理上的关键在于：Hermes MoA 把顾问权和决策权拆开了。

这对应企业里的典型结构：专家可以建议，但 DRI、产品负责人、法务负责人或业务负责人必须最终签字。

企业如果引入类似 MoA 的 agent 体系，也应保持这种分离：

AI reference agents：提出观点、证据、反例、风险
AI aggregator：形成结构化建议
Human DRI：承担业务责任和价值判断
Governance layer：记录、审计、复盘

如果企业只引入多模型，却没明确谁是 aggregator、谁有最终责任、谁可以 override，组织就会出现典型的责任扩散：人说是 AI 建议的，AI 又没有责任主体。

MoA 不是模型越多越好

多模型不是越多越好：有认知差异、聚合能判断、容许异议才创造集体智能，否则只是昂贵的重复劳动

组织行为学里，集体智能研究早就说明：团队表现不只是成员平均智商的函数。

Woolley 等人在 Science 上的研究发现，人类小组存在可测量的集体智能因子；团队组成、社会敏感性、参与均衡都会影响集体表现。

这能帮我们理解 MoA 的边界。

Together AI 的 MoA 论文显示，分层架构中多个 LLM agent 可以参考上一层的输出并提升表现，在 AlpacaEval 2.0 等 benchmark 上拿到很高的分数。

但 Self-MoA 的后续研究提醒：混合不同模型并不总是更好，MoA 对 proposer 质量很敏感，有时让单个强模型多次采样再聚合，反而优于混入较弱模型。

这对应组织行为学里的一个经典问题：多元化只有在被正确整合时才产生价值，否则会变成噪音、冲突或平均质量下降。

所以企业不能把 MoA 理解成多拉几个模型开会。

真正要问的是：

这个任务需要哪种认知多样性？
需要事实核查型、代码型、法律型、战略型，还是反方审稿型模型？
聚合者是否有能力识别低质量意见？
不同模型的意见是真的独立，还是同质化复述？

从组织行为学的角度，MoA 的核心变量不是模型数量。

决定成败的是认知多样性、贡献质量、发言结构、聚合能力和问责机制。

知识管理从“人知道什么”转向“系统知道谁知道什么”

知识基础观认为，企业的一个核心功能是整合分散的知识。

吸收能力研究也强调，组织能否识别、吸收和利用外部知识，是创新能力的重要来源。

Sakana 的 Multi-LLM AB-MCTS 正在做一件很像组织知识路由的事：一开始不知道哪个模型对哪个问题有效，于是先平衡使用，随后根据表现增加更有希望模型的使用频率。

这和人类组织里的交互记忆系统（transactive memory）很接近：团队不需要每个人都知道所有知识，但需要知道谁知道什么。

企业 AI 组织因此会长出一个新能力——AI 的交互记忆。

它包括：

模型能力画像：哪个模型擅长法律、代码、数学、财务、写作、视觉、规划？
任务—模型匹配历史：过去哪些任务由哪些模型组合效果好？
专家—模型互补关系：哪些人类专家最适合复核哪些模型输出？
组织记忆：哪些 agent workflow 已被验证，哪些失败过？

近年的人—AI 协同框架也把记忆、注意力、推理放在核心位置，特别提到 AI 可以帮助建立知识检索、专长映射和交互记忆，但人类仍要验证、语境化和校正这些知识结构。

这意味着未来企业的知识管理、HR、IT 和 AI 平台团队会发生交叉：人才盘点、模型盘点、流程盘点会合并成一件事。

MoA 也可能成为新的算法管理

不能只讲效率。

组织行为学必须追问：谁受益？谁失去权力？谁被监控？谁承担责任？

Faraj、Pachidi 和 Sayegh 讨论学习算法进入组织时，指出它具有黑箱化的绩效、全面数字化、预期性量化和隐藏的政治这些特征。

Kellogg、Valentine 和 Christin 关于工作中的算法的研究也指出，算法可能通过限制、推荐、记录、评分、替换和奖励等机制重塑组织控制。

这对 MoA / AB-MCTS 很关键。

企业一旦把模型编排、评分器、自动复核、自动路由部署进工作流，它不只是在帮助员工，也在改变权力关系：

过去：专家通过经验和声望拥有判断权
未来：系统通过评分器和日志拥有判断权

过去：管理者通过会议和审批分配注意力
未来：agent router 和 eval system 分配注意力

过去：员工解释自己为什么这样做
未来：员工还要解释为什么没有采纳 AI 建议

这会带来新的组织紧张：员工可能觉得自主性下降，专家可能觉得专业权威被稀释，中层管理者可能从判断者变成流程监控者。

如果企业只以效率名义推进，就会引发抵抗、沉默或形式化使用。

AI 可以降低表达异议的风险，也可能制造沉默

Edmondson 的心理安全研究表明，团队心理安全是一种可以承担人际风险的共同信念，而且与团队学习行为相关。

多模型系统带来一个有意思的可能：让反对意见先由 AI 提出。

在很多企业里，真人不敢挑战老板，不敢指出战略漏洞，不敢质疑大客户项目，不敢点破过于乐观的销售预测。

一个反方 agent、风控 agent 或红队 agent，可以把异议制度化，降低个人暴露的风险。

但反过来，如果组织文化本身不容许异议，AI 也会被调教成迎合工具：

reference model 负责找证据
aggregator 负责写得像老板想听的
eval 负责判断是否符合领导偏好
员工负责按 AI 输出执行

这种东西跟心理安全没关系，本质是算法化的服从。

所以企业引入 MoA，光让 AI 多说几个观点没用，重点是建立一种 AI 中介的异议协议：让系统强制输出反例、风险、替代方案和利益相关者影响，并要求人类 DRI 对是否采纳异议做记录。

Sakana / Hermes 指向微观双元组织

Tushman 和 O’Reilly 的双元组织理论强调，组织要同时追求渐进式创新和不连续创新，也就是同时适应当前环境和准备未来变化。

Teece 等人的动态能力理论则关注企业如何在变化环境中整合、构建、重构内外部能力。

Sakana / Hermes 的管理学含义是：双元能力正在从组织层面下沉到任务层面。

过去，企业可能用两个部门解决双元问题：

核心业务部门：利用现有能力
创新实验室：探索新机会

未来，一个具体任务内部就可以发生双元过程：

同一个战略问题：
  一个 agent 利用已有客户数据
  一个 agent 探索新商业模式
  一个 agent 做反方论证
  一个 agent 看合规风险
  aggregator 负责整合
  人类负责人做价值判断

这可以称为微观双元能力（micro-ambidexterity）。

企业不必等到年度战略会才做探索—利用的平衡。

它可以内嵌进每次重要决策、每个产品迭代、每个客户方案、每次风险审查。

一个更偏组织管理的研究框架

可以把研究问题设计成多层模型，不必停留在技术评测。

个体层：员工如何理解 AI 同事

核心变量包括信任校准、自动化偏误、角色身份、专业自尊、感知自主性、AI 焦虑、学习动机。

当 MoA 输出与人类专家判断冲突时，员工更相信谁？
AI reference agent 的反对意见，是否让员工更愿意表达异议？
员工把 aggregator 看作工具、同事、上级，还是审计者？

真正的人机互补，取决于角色划分、信任校准、共享心智模型、训练和任务结构。

简单把人和 AI 放在一起，并不够。

团队层：多模型是否提升团队学习

核心变量包括团队学习行为、参与均衡、认知多样性、冲突质量、复盘质量、决策速度、错误发现率。

MoA 是否提高团队发现盲点的概率？
反方 agent 能否替代或增强 devil’s advocate 角色？
多个模型输出是改善了团队讨论，还是让团队更快达成虚假共识？

组织层：结构是变扁平，还是控制更强

核心变量包括决策集中度、审批层级、管理跨度、知识流动、问责清晰度、算法控制强度、组织学习速度。

AI agent 是减少了向上汇报，还是制造了更多审计和合规节点？
中层管理者是被替代，还是转型为 agent orchestrator？
AI 评分器会强化组织短期主义，还是帮助组织长期学习？

AI 进入组织需要从个体、团队和组织多个层次分析，别只盯着工具采纳或生产率。

对企业 AI 组织变革的具体建议

不同任务配不同决策组织形态：从单模型到 Self-MoA、参谋+aggregator+DRI、AB-MCTS+测试、多模型反方+人类委员会

第一，别停在设一个 AI CoE，更该设一个 AI Organization Design Office。

这个团队的职责不止于选模型、做平台，还要设计人—AI—流程之间的角色、权责、升级路径、评价机制和复盘制度。

它应该同时具备组织发展、HR、业务流程、法务合规、数据治理和 AI 工程背景。

第二，为不同任务设计不同的决策组织形态。

简单任务用单模型；复杂但低风险任务用 Self-MoA；高风险任务用 reference agents + aggregator + human DRI；可验证任务用 AB-MCTS + 自动测试；战略性任务用多模型反方审议 + 人类委员会。

第三，把 AI 反对意见制度化。

重大决策中，至少要有一个 agent 扮演 red team，一个 agent 扮演 stakeholder impact reviewer，一个 agent 扮演 compliance reviewer。

更重要的是，人类负责人必须记录为什么采纳或拒绝这些意见。

第四，建立模型与人类专家的交互记忆图谱。

企业需要知道：哪个模型擅长什么，哪个人类专家适合复核什么，哪些模型组合在历史任务上有效，哪些 agent workflow 已验证。

否则 AI 组织会变成混乱的模型市场。

第五，把员工从 AI 使用者训练成 AI 组织者。

未来的关键能力不在 prompt 写得好不好。

它在于会不会分解任务、配置多模型角色、识别输出质量、提出反事实问题、校准信任、设计评估标准、承担责任。

第六，防止 MoA 变成算法化官僚主义。

如果每个任务都要经过多个 agent 审议、评分、复核、审计，组织可能没变敏捷，反而更慢、更不透明。

MoA 应该用在高价值、高复杂、高不确定的任务上，别让它成为所有流程的默认审批层。

真正的组织变革命题

AI 进入组织改变六件事：注意力、知识整合、异议、决策权、责任、学习；真正稀缺的是人—AI 复合组织能力

站在组织行为学和管理学的角度，Sakana AI 和 Hermes MoA 的意义，不止于企业可以把几个模型组队。

AI 正在从工具进入组织结构本身。

它会改变企业中的六件事：

注意力如何分配
专业知识如何整合
异议如何表达
决策权如何聚合
责任如何归属
组织如何学习

因此，未来领先企业的 AI 能力，光有模型能力、平台能力还不够。

真正稀缺的是人—AI 复合组织能力：

能够把人类判断、模型推理、组织记忆、异议机制、评分系统和责任结构整合到一起，做成一个稳定、可学习、可审计、能持续进化的工作系统。

这才是 Sakana AI 和 Hermes MoA 对企业组织变革真正有研究价值的地方。

参考资料

Sakana AI, Inference-Time Scaling and Collective Intelligence for Frontier AI（AB-MCTS / Multi-LLM AB-MCTS）
Wider or Deeper? Scaling LLM Inference-Time Compute with Adaptive Branching Tree Search（AB-MCTS 论文）
Hermes Agent 文档, Mixture of Agents
Galbraith, Organization Design: An Information Processing View
March, Exploration and Exploitation in Organizational Learning
Cohen, March & Olsen, A Garbage Can Model of Organizational Choice
Woolley et al., Evidence for a Collective Intelligence Factor in the Performance of Human Groups（Science）
Together AI, Mixture-of-Agents Enhances Large Language Model Capabilities
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?（Self-MoA）
Cohen & Levinthal, Absorptive Capacity: A New Perspective on Learning and Innovation
Faraj, Pachidi & Sayegh, Working and Organizing in the Age of the Learning Algorithm
Kellogg, Valentine & Christin, Algorithms at Work: The New Contested Terrain of Control
Edmondson, Psychological Safety and Learning Behavior in Work Teams
Tushman & O’Reilly, The Ambidextrous Organization
Teece et al., Dynamic Capabilities and Strategic Management
Bankins et al., A Multilevel Review of Artificial Intelligence in Organizations

如果你正在设计企业的人—AI—流程协同、Agent 编排、评估或治理体系，欢迎交流。