企业级 Agent 的可控执行：Human-in-the-Loop 人机协同模型

2026年2月10日 · 阅读需 13 分钟

企业团队正在从“能对话的智能体”走向“能执行业务动作的智能体”：创建工单、更新订单、发起退款、变更权限、触发工作流。一旦智能体能够向 记录系统（systems of record） 回写，产品需求会立刻转向 可控执行（controlled execution）：行为可预测、授权清晰、结果可审计。

Human-in-the-Loop（HITL，人机协同闭环） 是把试验推进到生产的实用桥梁：在可扩展 Agentic AI 的同时，让关键决策可复核、权限可强制、回写可回滚。

为什么“可控执行”正在成为企业落地的默认门槛

市场信号已经非常明确：Gartner 预测到 2026 年，约 40% 的企业应用将集成特定任务型 AI 智能体（task-specific AI agents），而 2025 年这一比例还低于 5%。
同时，采用进度呈现“试验热、规模化慢”的典型形态。McKinsey 的 2025 调研显示，62% 的组织至少在尝试 AI 智能体，但许多团队仍停留在试点阶段。

差距通常来自 运营风险：

错误答案带来困惑。
错误业务动作带来成本、合规暴露与客户影响。

Gartner 也提示，很多 agentic 项目会因为价值不清晰或风险控制不足而在规模化阶段被取消。
可控执行与 HITL 设计模式能显著降低这一失败路径，让智能体行为更易治理、可验证、可运营。

架构评审可复用术语

Agentic AI
能够规划并执行多步骤工作，常见能力包括工具调用与向业务系统回写。

可控执行（Controlled execution）
一种运行时模型：任何会改变状态的动作都受以下约束共同限制：

Policy：允许做什么
Permissions：谁能做
Verification：必须通过哪些校验
Evidence：必须留下哪些证据与记录

业务动作（Business action）
会改变真实业务状态的操作：记录、审批、资金、权限、义务等。

Human-in-the-Loop（HITL）
在工作流的特定节点引入人工复核、批准或覆盖，尤其用于不可逆或高影响动作。

记录系统（System of record）
权威业务状态来源（订单、HR、财务、CRM 对象、权限/权益）。回写会放大影响半径。

可控执行阶梯：用“自主等级”规划上线节奏

将自主性视为一把带闸门的梯子更好落地：

只读助手：检索 + 总结；不回写
提案模式：智能体生成动作草案；人来执行
引导执行：在明确闸门处获得批准后由智能体执行
条件自动驾驶：在策略边界内自动执行，具备审计与回滚
持续优化：基于遥测、评测与事件复盘持续迭代控制策略

HITL 主要覆盖第 2–4 级，这些阶段往往是企业价值密度最高的区域。

企业可规模化的人机协同模式（HITL Patterns）

下面这些模式在生产级智能体系统中反复出现。

1）写入前复核（Review-before-write, RBW）

智能体先产出结构化 变更集（change set / diff），避免直接修改记录。

为什么有效

人更容易快速判断“意图 + 影响”
审批更快、更一致

实现要点

用结构化格式呈现：字段 → 旧值 → 新值 → 理由 → 证据链接
强制附带可追溯证据（检索结果、工具输出、工单/文档 ID）

2）业务动作的两阶段提交（Two-stage commit）

把回写当成事务：

阶段 A（Prepare）：校验输入、计算 diff、跑策略检查
阶段 B（Commit）：获得批准或策略授权后才执行

这与财务、权限、客户影响类变更的审批逻辑高度一致。

3）按风险分层的审批闸门（Risk-tiered approval gates）

不同动作需要不同强度的监督：

低风险：标签/格式/内部备注 → 轻审批或抽样审计
中风险：SLA 调整、对客沟通草案、路由决策 → 单人审批
高风险：退款、权限/权益、合同条款、PII 导出 → 双人审批 + 更强证据

这与欧盟 AI Act 对高风险系统的人类监督要求方向一致，尤其是对监督措施的明确化。

4）双人复核（Four-eyes / dual control）

对不可逆或高价值动作，要求两位独立人员批准。该控制在安全与金融运营中非常常见。

5）避免“走过场”的审批体验（Approval UX）

审批体验要让人“高效且有判断力”：

先展示影响摘要（金额、权限范围、客户数量、SLA）
高亮不确定性与缺失证据
提供“一键请求澄清”，把问题路由回智能体

6）异常分流与升级梯（Exception routing）

当策略检查失败或置信度不足，将任务路由到正确队列（法务/合规、安全、财务、业务负责人），并保证：升级路径明确、日志完整、可度量。

7）抽样审计支持“安全自动驾驶”

对高频低风险动作，用组合控制替代每次审批：策略边界 + 周期抽检 + 异常检测，让速度与责任同时成立。

8）影子模式（Shadow mode / parallel run）

允许回写前，先让智能体“像要回写一样运行”，再对比：

智能体提案 vs 人类决定
预测结果 vs 实际结果

影子模式用证据建立信任，也能沉淀策略与评测数据。

9）可逆动作与回滚路径（Rollback）

可控执行在“可撤销”时更稳定：

soft delete
保留历史值
每次工具调用与变更都记录 correlation ID
提供“回滚变更集”的标准动作

10）Policy-as-code：把 AI 动作当成生产变更来管

将动作治理编码化：

明确的动作 schema
前置条件与不变量
限流、配额
环境约束（sandbox / prod）

这与 ISO/IEC 42001 强调的组织级 AI 管理体系与生命周期控制思路吻合。

可控执行的参考架构

一套实用架构通常具备清晰边界：

Agent Runtime / Orchestrator：规划、工具选择、状态机
Tool Layer：业务系统连接器，严格 schema
Policy Engine：审批规则、风险分层、限额、合规检查
Permission Model（RBAC/ABAC）：每个动作强制鉴权
Evidence Store：检索文档、工具输出、关键推理摘要
Audit Log：不可篡改事件链（who/what/when/why）
Observability：trace、指标、错误预算、漂移监控
Evaluation Harness：工作流回归测试、安全检查

NIST AI RMF 常被用于把技术控制与治理沟通对齐到同一套风险语言。

“业务动作契约”（Business Action Contract）模式

为了让 HITL 更快、更一致，可以为每个会改变状态的能力定义动作契约。

动作契约字段示例

动作名（IssueRefund / UpdateEntitlement / ChangeOrderStatus）
必填输入（强类型）
前置条件（必须为真）
禁止条件（永远不可为真）
副作用（会改变什么）
风险等级（低/中/高）
审批人要求（按角色）
证据要求（链接、工具结果、文档 ID）
回滚方案（如何撤销）

动作契约把“智能体行为”变成平台可治理对象。

示例：一次“权益变更”的可控工作流

用户请求：“给这些账号开通 30 天高级权限。”

智能体检索账号与策略约束
生成变更集：账号列表 + 权益字段 + 到期时间
策略引擎评估：高风险，需要双人审批
审批人 A 校验资格与证据
审批人 B 校验业务理由与影响范围
Commit：通过带 schema 校验的工具执行
审计日志记录：请求、diff、审批、工具响应 ID、回滚方法

这里的 HITL 具备明确的运营控制含义，不会沦为形式流程。

JitAI 在这个模型中的位置（尽量省去额外仪式感）

很多团队卡在一个现实问题：智能体逻辑游离在业务系统治理模型之外，导致权限、审批、审计与回滚很难统一。更顺滑的路径是把智能体放在一个平台中运行，这个平台天然提供：

结构化、强类型的业务对象
可复用的工作流与审批节点
清晰的权限模型，定义谁可以改什么
回写以可审计事件方式被跟踪

如果你想快速看到“结构化动作 + 审批闸门 + 可治理回写”的组合实践，可以从 JitAI 教程 开始。
需要端到端原型验证时，可以直接试用 JitAI。

如何度量：把 HITL 变成可运营模型

建议跟踪这些指标来平衡控制与吞吐：

审批时延（proposal → decision）
完成率（最终正确提交的任务比例）
覆盖率（人对 diff 的修改频率）
回滚率（提交后被撤销的比例）
异常率（被策略阻止的比例）
证据质量（缺少引用/工具输出的比例）
与智能体动作相关的事故数与恢复时间（MTTR）

常见失败模式

无结构回写：自由文本直接改记录，缺少 schema 与 diff
单一“Approve”：缺影响摘要、缺证据、缺回滚
权限越权：智能体权限大于它所辅助的人
缺少审计链：事故发生时无法解释发生了什么
闸门一刀切：到处审批导致瘫痪，完全不审批导致失控
跳过影子阶段：直接上回写，缺少评测与策略数据

职业与团队形态：围绕“可控执行”的新角色

Enterprise Agent Engineer：工具、schema、编排、可观测性
AI Workflow Architect：审批与策略设计、风险分层、复核体验
AI Governance Lead：控制映射、审计准备、标准对齐
Agent Product Manager：指标体系、上线节奏、采用与价值验证

掌握 HITL 模式的优势在于：它把 AI 能力与运营责任连接起来。

FAQ

哪些动作默认需要人工审批？
涉及资金、权限/权益、受监管数据、合同条款、或一次性影响大量客户的动作，建议默认走显式审批，高风险动作通常需要更高等级复核。

量起来以后 HITL 还能扩展吗？
可以。通过风险分层、抽样审计、更好的审批体验、影子模式沉淀策略与评测数据，逐步减少不必要升级。

怎样避免审批“走过场”？
采用 diff 审批、强制证据链接、高亮影响与不确定性，并用覆盖率/回滚率等指标识别薄弱复核行为。

最快的安全起步路径是什么？
从提案模式 + 结构化 diff 起步，叠加策略检查，然后对一小类低风险动作进入引导执行。

客户管理系统

全链路业务系统

协同系统

企业级 Agent 的可控执行：Human-in-the-Loop 人机协同模型

为什么“可控执行”正在成为企业落地的默认门槛

架构评审可复用术语

可控执行阶梯：用“自主等级”规划上线节奏

企业可规模化的人机协同模式（HITL Patterns）

1）写入前复核（Review-before-write, RBW）

2）业务动作的两阶段提交（Two-stage commit）

3）按风险分层的审批闸门（Risk-tiered approval gates）

4）双人复核（Four-eyes / dual control）

5）避免“走过场”的审批体验（Approval UX）

6）异常分流与升级梯（Exception routing）

7）抽样审计支持“安全自动驾驶”

8）影子模式（Shadow mode / parallel run）

9）可逆动作与回滚路径（Rollback）

10）Policy-as-code：把 AI 动作当成生产变更来管

可控执行的参考架构

“业务动作契约”（Business Action Contract）模式

示例：一次“权益变更”的可控工作流

JitAI 在这个模型中的位置（尽量省去额外仪式感）

如何度量：把 HITL 变成可运营模型

常见失败模式

职业与团队形态：围绕“可控执行”的新角色

FAQ

为什么“可控执行”正在成为企业落地的默认门槛​

架构评审可复用术语​

可控执行阶梯：用“自主等级”规划上线节奏​

企业可规模化的人机协同模式（HITL Patterns）​

1）写入前复核（Review-before-write, RBW）​

2）业务动作的两阶段提交（Two-stage commit）​

3）按风险分层的审批闸门（Risk-tiered approval gates）​

4）双人复核（Four-eyes / dual control）​

5）避免“走过场”的审批体验（Approval UX）​

6）异常分流与升级梯（Exception routing）​

7）抽样审计支持“安全自动驾驶”​

8）影子模式（Shadow mode / parallel run）​

9）可逆动作与回滚路径（Rollback）​

10）Policy-as-code：把 AI 动作当成生产变更来管​

可控执行的参考架构​

“业务动作契约”（Business Action Contract）模式​

示例：一次“权益变更”的可控工作流​

JitAI 在这个模型中的位置（尽量省去额外仪式感）​

如何度量：把 HITL 变成可运营模型​

常见失败模式​

职业与团队形态：围绕“可控执行”的新角色​

FAQ​

为什么“可控执行”正在成为企业落地的默认门槛

架构评审可复用术语

可控执行阶梯：用“自主等级”规划上线节奏

企业可规模化的人机协同模式（HITL Patterns）

1）写入前复核（Review-before-write, RBW）

2）业务动作的两阶段提交（Two-stage commit）

3）按风险分层的审批闸门（Risk-tiered approval gates）

4）双人复核（Four-eyes / dual control）

5）避免“走过场”的审批体验（Approval UX）

6）异常分流与升级梯（Exception routing）

7）抽样审计支持“安全自动驾驶”

8）影子模式（Shadow mode / parallel run）

9）可逆动作与回滚路径（Rollback）

10）Policy-as-code：把 AI 动作当成生产变更来管

可控执行的参考架构

“业务动作契约”（Business Action Contract）模式

示例：一次“权益变更”的可控工作流

JitAI 在这个模型中的位置（尽量省去额外仪式感）

如何度量：把 HITL 变成可运营模型

常见失败模式

职业与团队形态：围绕“可控执行”的新角色

FAQ