模型治理 2026-06-30 多模型协作MoA组织行为学企业 AI组织变革

AI 对组织架构变革的思考

AI 对组织架构变革的思考
AI 对组织架构变革的思考

把 Sakana AI 的 AB-MCTS 和 Nous Research 在 Hermes Agent 上做的 Mixture of Agents(下称 MoA)放在一起看,最常见的解读是:现有模型换一种组织方式使用,靠推理时计算、多模型协作,也能显著提高表现。

但从组织行为学的角度,这个解读还不够。

它们真正指向的,是企业开始把一部分组织过程外化成可计算的推理过程——搜索、分工、复核、争辩、聚合、记忆、授权、问责。

多模型系统正在把人类组织的协作过程,迁移进 AI 内部。

专家协作、试错学习、委员会决策、责任汇聚、组织记忆、绩效评价,原来都发生在人这边,现在被搬进了系统。

一旦这种迁移发生,组织结构、权力、责任、学习和员工身份都会跟着变。

AI 把搜方案、分工、复核、争辩、拍板、记经验这些协作动作,从人这边搬进了多模型系统内部
AI 把搜方案、分工、复核、争辩、拍板、记经验这些协作动作,从人这边搬进了多模型系统内部

真正的研究对象是组织过程的算法化

Sakana AI 的 AB-MCTS 不是简单的 ensemble。

它在推理阶段动态决定是向宽处探索新方案,还是向深处改进已有方案;在 Multi-LLM AB-MCTS 里,它进一步决定哪个模型更适合当前问题。

Sakana 自己把这称为多模型的集体智能(collective intelligence)。

Hermes 的 MoA 更像一个制度化的专家委员会:reference models 先提供分析,aggregator(acting model)最终写回复并调用工具,Hermes 把 aggregator 的输出当作真实的模型回复。

所以 MoA 能不能提升分数,是次要问题。

真正值得问的是:当企业把思考、讨论、复核、决策、执行拆成多个 AI 角色时,组织结构、权力、责任、学习和员工身份会怎么变?

多模型系统在重塑组织的注意力结构

多模型系统重排组织注意力:复杂任务进来,多模型并行、聚合分配、评估器筛选,人只处理边界和高风险问责
多模型系统重排组织注意力:复杂任务进来,多模型并行、聚合分配、评估器筛选,人只处理边界和高风险问责

组织理论里,Galbraith 的信息处理观点认为,组织形式与任务的不确定性相关。

当任务不确定性上升,组织必须通过信息系统、横向关系、群体问题解决等方式提升信息处理能力。

从这个角度看,Sakana 和 Hermes MoA 提供了一种新的注意力配置机制。

传统组织面对复杂问题,会开会、拉专家、找顾问、升级到管理层。

多模型系统把这个过程压缩成另一条链路:

复杂任务
→ 多个模型并行关注不同方面
→ 聚合模型或搜索算法分配注意力
→ 评估器决定哪些路径值得继续
→ 人类只处理边界、价值判断和高风险问责

这会改变组织里的注意力稀缺性。

过去,专家注意力和管理层注意力是瓶颈;未来,模型可以承担大量初级的注意力扫描。

但这并不意味着管理层消失。

管理层的职责会从亲自看所有信息,转向设计注意力的流向:哪些问题值得多模型审议,哪些必须人工介入,哪些指标决定继续探索还是停止。

这是组织设计意义上的变化。

企业多出来的,是一套分配注意力的制度。

AB-MCTS 是 March 式探索—利用的机器化

AB-MCTS 每一步在 Go wider 探索、Go deeper 利用、Select LLM 选模型之间权衡
AB-MCTS 每一步在 Go wider 探索、Go deeper 利用、Select LLM 选模型之间权衡

March 在《Exploration and Exploitation in Organizational Learning》里讨论过组织学习中探索新可能性和利用旧确定性之间的张力。

他指出适应性过程容易短期有效、长期自毁:组织往往更快强化利用(exploitation),牺牲探索(exploration)。

Sakana 的 AB-MCTS 几乎是这个理论的技术化版本。

它在每一步做三类决定:

Go wider:生成新的候选方向,相当于组织探索
Go deeper:改进已有方案,相当于组织利用
Select LLM:根据过程中的表现,动态选更适合的“专家”

这对企业的启发很深:未来的 AI 组织,光建一个模型调用平台不够,还要建立组织学习算法。

在研发、战略、风控、投研、法律、产品创新里,系统可以同时保留多个假设,让不同模型推进不同假设,再用外部评估器或人类专家选择继续投入的方向。

这里也有管理学风险:谁定义 reward,谁就在定义组织学习的方向。

Sakana 的论文也指出,AB-MCTS 依赖可靠的 score evaluator,而为具体任务开发这样的评估器本身就可能很难。

也就是说,企业里的 Eval 不是一项技术测试。

它真正承载的是组织价值观的制度化表达。

你用短期点击率评分,组织就会学会迎合点击;你用合规零风险评分,组织就可能失去创新;你用老板满意度评分,AI 就会成为权力结构的放大机制。

Hermes MoA 是委员会制的产品化

MoA 把顾问权和决策权拆开:参谋出分析、aggregator 拍板、人类 DRI 担责、Governance 留痕
MoA 把顾问权和决策权拆开:参谋出分析、aggregator 拍板、人类 DRI 担责、Governance 留痕

Cohen、March 和 Olsen 的垃圾桶模型认为,在组织决策中,问题、解决方案、参与者和选择机会常常是松散耦合的。

决策并不总是线性的理性选择,而经常是多个流在某个时点偶然汇合。

Hermes MoA 可以理解成一种结构化的垃圾桶,它把原来混乱的会议过程制度化了:

问题流:用户任务
参与者流:reference models
方案流:各模型的分析
选择机会:aggregator 生成最终回答并调用工具
责任出口:aggregator 的 response 被视为正式的模型回复

这比大家一起聊天的多 agent 更像正式组织。

Hermes 文档明确规定:reference models 只提供分析,aggregator 是 acting model,负责最终回复和工具调用;reference 的输出会作为私有上下文交给 aggregator。

管理上的关键在于:Hermes MoA 把顾问权和决策权拆开了。

这对应企业里的典型结构:专家可以建议,但 DRI、产品负责人、法务负责人或业务负责人必须最终签字。

企业如果引入类似 MoA 的 agent 体系,也应保持这种分离:

AI reference agents:提出观点、证据、反例、风险
AI aggregator:形成结构化建议
Human DRI:承担业务责任和价值判断
Governance layer:记录、审计、复盘

如果企业只引入多模型,却没明确谁是 aggregator、谁有最终责任、谁可以 override,组织就会出现典型的责任扩散:人说是 AI 建议的,AI 又没有责任主体。

MoA 不是模型越多越好

多模型不是越多越好:有认知差异、聚合能判断、容许异议才创造集体智能,否则只是昂贵的重复劳动
多模型不是越多越好:有认知差异、聚合能判断、容许异议才创造集体智能,否则只是昂贵的重复劳动

组织行为学里,集体智能研究早就说明:团队表现不只是成员平均智商的函数。

Woolley 等人在 Science 上的研究发现,人类小组存在可测量的集体智能因子;团队组成、社会敏感性、参与均衡都会影响集体表现。

这能帮我们理解 MoA 的边界。

Together AI 的 MoA 论文显示,分层架构中多个 LLM agent 可以参考上一层的输出并提升表现,在 AlpacaEval 2.0 等 benchmark 上拿到很高的分数。

但 Self-MoA 的后续研究提醒:混合不同模型并不总是更好,MoA 对 proposer 质量很敏感,有时让单个强模型多次采样再聚合,反而优于混入较弱模型。

这对应组织行为学里的一个经典问题:多元化只有在被正确整合时才产生价值,否则会变成噪音、冲突或平均质量下降。

所以企业不能把 MoA 理解成多拉几个模型开会。

真正要问的是:

这个任务需要哪种认知多样性?
需要事实核查型、代码型、法律型、战略型,还是反方审稿型模型?
聚合者是否有能力识别低质量意见?
不同模型的意见是真的独立,还是同质化复述?

从组织行为学的角度,MoA 的核心变量不是模型数量。

决定成败的是认知多样性、贡献质量、发言结构、聚合能力和问责机制。

知识管理从“人知道什么”转向“系统知道谁知道什么”

知识基础观认为,企业的一个核心功能是整合分散的知识。

吸收能力研究也强调,组织能否识别、吸收和利用外部知识,是创新能力的重要来源。

Sakana 的 Multi-LLM AB-MCTS 正在做一件很像组织知识路由的事:一开始不知道哪个模型对哪个问题有效,于是先平衡使用,随后根据表现增加更有希望模型的使用频率。

这和人类组织里的交互记忆系统(transactive memory)很接近:团队不需要每个人都知道所有知识,但需要知道谁知道什么。

企业 AI 组织因此会长出一个新能力——AI 的交互记忆。

它包括:

模型能力画像:哪个模型擅长法律、代码、数学、财务、写作、视觉、规划?
任务—模型匹配历史:过去哪些任务由哪些模型组合效果好?
专家—模型互补关系:哪些人类专家最适合复核哪些模型输出?
组织记忆:哪些 agent workflow 已被验证,哪些失败过?

近年的人—AI 协同框架也把记忆、注意力、推理放在核心位置,特别提到 AI 可以帮助建立知识检索、专长映射和交互记忆,但人类仍要验证、语境化和校正这些知识结构。

这意味着未来企业的知识管理、HR、IT 和 AI 平台团队会发生交叉:人才盘点、模型盘点、流程盘点会合并成一件事。

MoA 也可能成为新的算法管理

这套系统也在重排权力:判断权、注意力分配、谁来解释,都从人挪向系统
这套系统也在重排权力:判断权、注意力分配、谁来解释,都从人挪向系统

不能只讲效率。

组织行为学必须追问:谁受益?谁失去权力?谁被监控?谁承担责任?

Faraj、Pachidi 和 Sayegh 讨论学习算法进入组织时,指出它具有黑箱化的绩效、全面数字化、预期性量化和隐藏的政治这些特征。

Kellogg、Valentine 和 Christin 关于工作中的算法的研究也指出,算法可能通过限制、推荐、记录、评分、替换和奖励等机制重塑组织控制。

这对 MoA / AB-MCTS 很关键。

企业一旦把模型编排、评分器、自动复核、自动路由部署进工作流,它不只是在帮助员工,也在改变权力关系:

过去:专家通过经验和声望拥有判断权
未来:系统通过评分器和日志拥有判断权

过去:管理者通过会议和审批分配注意力
未来:agent router 和 eval system 分配注意力

过去:员工解释自己为什么这样做
未来:员工还要解释为什么没有采纳 AI 建议

这会带来新的组织紧张:员工可能觉得自主性下降,专家可能觉得专业权威被稀释,中层管理者可能从判断者变成流程监控者。

如果企业只以效率名义推进,就会引发抵抗、沉默或形式化使用。

AI 可以降低表达异议的风险,也可能制造沉默

Edmondson 的心理安全研究表明,团队心理安全是一种可以承担人际风险的共同信念,而且与团队学习行为相关。

多模型系统带来一个有意思的可能:让反对意见先由 AI 提出。

在很多企业里,真人不敢挑战老板,不敢指出战略漏洞,不敢质疑大客户项目,不敢点破过于乐观的销售预测。

一个反方 agent、风控 agent 或红队 agent,可以把异议制度化,降低个人暴露的风险。

但反过来,如果组织文化本身不容许异议,AI 也会被调教成迎合工具:

reference model 负责找证据
aggregator 负责写得像老板想听的
eval 负责判断是否符合领导偏好
员工负责按 AI 输出执行

这种东西跟心理安全没关系,本质是算法化的服从。

所以企业引入 MoA,光让 AI 多说几个观点没用,重点是建立一种 AI 中介的异议协议:让系统强制输出反例、风险、替代方案和利益相关者影响,并要求人类 DRI 对是否采纳异议做记录。

Sakana / Hermes 指向微观双元组织

Tushman 和 O’Reilly 的双元组织理论强调,组织要同时追求渐进式创新和不连续创新,也就是同时适应当前环境和准备未来变化。

Teece 等人的动态能力理论则关注企业如何在变化环境中整合、构建、重构内外部能力。

Sakana / Hermes 的管理学含义是:双元能力正在从组织层面下沉到任务层面。

过去,企业可能用两个部门解决双元问题:

核心业务部门:利用现有能力
创新实验室:探索新机会

未来,一个具体任务内部就可以发生双元过程:

同一个战略问题:
  一个 agent 利用已有客户数据
  一个 agent 探索新商业模式
  一个 agent 做反方论证
  一个 agent 看合规风险
  aggregator 负责整合
  人类负责人做价值判断

这可以称为微观双元能力(micro-ambidexterity)。

企业不必等到年度战略会才做探索—利用的平衡。

它可以内嵌进每次重要决策、每个产品迭代、每个客户方案、每次风险审查。

一个更偏组织管理的研究框架

可以把研究问题设计成多层模型,不必停留在技术评测。

个体层:员工如何理解 AI 同事

核心变量包括信任校准、自动化偏误、角色身份、专业自尊、感知自主性、AI 焦虑、学习动机。

当 MoA 输出与人类专家判断冲突时,员工更相信谁?
AI reference agent 的反对意见,是否让员工更愿意表达异议?
员工把 aggregator 看作工具、同事、上级,还是审计者?

真正的人机互补,取决于角色划分、信任校准、共享心智模型、训练和任务结构。

简单把人和 AI 放在一起,并不够。

团队层:多模型是否提升团队学习

核心变量包括团队学习行为、参与均衡、认知多样性、冲突质量、复盘质量、决策速度、错误发现率。

MoA 是否提高团队发现盲点的概率?
反方 agent 能否替代或增强 devil’s advocate 角色?
多个模型输出是改善了团队讨论,还是让团队更快达成虚假共识?

组织层:结构是变扁平,还是控制更强

核心变量包括决策集中度、审批层级、管理跨度、知识流动、问责清晰度、算法控制强度、组织学习速度。

AI agent 是减少了向上汇报,还是制造了更多审计和合规节点?
中层管理者是被替代,还是转型为 agent orchestrator?
AI 评分器会强化组织短期主义,还是帮助组织长期学习?

AI 进入组织需要从个体、团队和组织多个层次分析,别只盯着工具采纳或生产率。

对企业 AI 组织变革的具体建议

不同任务配不同决策组织形态:从单模型到 Self-MoA、参谋+aggregator+DRI、AB-MCTS+测试、多模型反方+人类委员会
不同任务配不同决策组织形态:从单模型到 Self-MoA、参谋+aggregator+DRI、AB-MCTS+测试、多模型反方+人类委员会

第一,别停在设一个 AI CoE,更该设一个 AI Organization Design Office。

这个团队的职责不止于选模型、做平台,还要设计人—AI—流程之间的角色、权责、升级路径、评价机制和复盘制度。

它应该同时具备组织发展、HR、业务流程、法务合规、数据治理和 AI 工程背景。

第二,为不同任务设计不同的决策组织形态。

简单任务用单模型;复杂但低风险任务用 Self-MoA;高风险任务用 reference agents + aggregator + human DRI;可验证任务用 AB-MCTS + 自动测试;战略性任务用多模型反方审议 + 人类委员会。

第三,把 AI 反对意见制度化。

重大决策中,至少要有一个 agent 扮演 red team,一个 agent 扮演 stakeholder impact reviewer,一个 agent 扮演 compliance reviewer。

更重要的是,人类负责人必须记录为什么采纳或拒绝这些意见。

第四,建立模型与人类专家的交互记忆图谱。

企业需要知道:哪个模型擅长什么,哪个人类专家适合复核什么,哪些模型组合在历史任务上有效,哪些 agent workflow 已验证。

否则 AI 组织会变成混乱的模型市场。

第五,把员工从 AI 使用者训练成 AI 组织者。

未来的关键能力不在 prompt 写得好不好。

它在于会不会分解任务、配置多模型角色、识别输出质量、提出反事实问题、校准信任、设计评估标准、承担责任。

第六,防止 MoA 变成算法化官僚主义。

如果每个任务都要经过多个 agent 审议、评分、复核、审计,组织可能没变敏捷,反而更慢、更不透明。

MoA 应该用在高价值、高复杂、高不确定的任务上,别让它成为所有流程的默认审批层。

真正的组织变革命题

AI 进入组织改变六件事:注意力、知识整合、异议、决策权、责任、学习;真正稀缺的是人—AI 复合组织能力
AI 进入组织改变六件事:注意力、知识整合、异议、决策权、责任、学习;真正稀缺的是人—AI 复合组织能力

站在组织行为学和管理学的角度,Sakana AI 和 Hermes MoA 的意义,不止于企业可以把几个模型组队。

AI 正在从工具进入组织结构本身。

它会改变企业中的六件事:

注意力如何分配
专业知识如何整合
异议如何表达
决策权如何聚合
责任如何归属
组织如何学习

因此,未来领先企业的 AI 能力,光有模型能力、平台能力还不够。

真正稀缺的是人—AI 复合组织能力:

能够把人类判断、模型推理、组织记忆、异议机制、评分系统和责任结构整合到一起,做成一个稳定、可学习、可审计、能持续进化的工作系统。

这才是 Sakana AI 和 Hermes MoA 对企业组织变革真正有研究价值的地方。

参考资料

如果你正在设计企业的人—AI—流程协同、Agent 编排、评估或治理体系,欢迎交流。