企业系统中的 LLM:从对话到可治理执行
大语言模型(LLM)已经不再局限于“聊天”。在企业场景里,它们正在成为一种新的运行时能力:能够基于上下文推理、调用工具、驱动工作流——前提是你用正确的系统设计把它们“装进”可控的执行框架里。
本指南给出可复用的 LLM 术语体系,解释 LLM 如何演进为 AI agent,并梳理“可用于生产”的 AI 原生企业应用应具备的关键要素,尤其适用于 AI 低代码平台与企业开发平台。
LLM 是什么,以及它不是什么
LLM(Large Language Model)是一类深度学习模型,通过在海量语料上学习“预测下一个 token”,从而擅长语言理解与生成:摘要、抽取、翻译、分类、撰写,以及与代码相关的任务。
LLM 本身并不天然具备:
- 对你业务数据的已验证知识
- 安全更新记录的权限
- 可预测的确定性行为
- 对系统记录(systems of record)的持久记忆
这些能力来自外围系统:检索(retrieval)、工具集成(tools)、身份与权限(identity & permissions)、工作流控制(workflow controls)、日志(logging)、评测(evaluations)与监控(monitoring)。
为什么 LLM 对企业开发平台很重要
企业团队正在快速采用 AI,但真正的价值通常出现在 LLM 被集成进系统与工作流之后,而不是把它当作一个独立聊天工具来用。
两个中性信号能说明趋势方向:
- 2024 年,71% 的受访者表示在至少一个业务职能中使用了生成式 AI,78% 表示其组织在使用 AI。
- 2024 年,生成式 AI 的全球私人投资达到 339 亿美元,同比增加 18.7%,并且该领域占全部 AI 私人投资的 20% 以上。
这些趋势带来一个很具体的产品需求:企业需要把 LLM 的能力转化为可重复、可治理、能在业务系统内落地的结果。
架构评审时可直接复用的关键术语
LLM(模型)
一个概率性引擎:在给定输入上下文的情况下生成或变换文本(很多模型也支持多模态)。
Prompt(指令 + 上下文)
你提供的指令与上下文(也可能包含结构化数据),用来引导模型输出。
Context window(上下文窗口)
模型在一次运行中可考虑的输入容量。它会影响单步能稳定完成的任务上限,并推动你采用分块、检索与工作流拆分。
RAG(Retrieval-Augmented Generation,检索增强生成)
一种模式:从外部语料(制度、工单、产品文档、合同等)检索相关内容并注入上下文,使输出可溯源、可核验。
Tool calling / Function calling(工具调用 / 函数调用)
一种模式:模型选择外部工具(API、数据库查询、工作流步骤)。在生产环境中,“调用”需要由你可控的编排器(orchestrator)做校验与执行。
AI agent(智能体)
一种应用形态:LLM 能跨多步规划与行动,使用工具与状态,通常包含记忆与工作流控制。更直观地说:agent 是“被放进系统里、能够执行”的 LLM。
System(面向企业 LLM 的系统层)
围绕模型的可治理运行时:身份、权限、检索、工具、工作流、策略、审计日志、评测、可观测性与安全回写(safe write-back)。企业级可靠性主要来自这里。
企业真正发生的变化:LLM → agent
很多团队从“助手”起步:回答问题、起草内容。下一步会走向 agentic:完成工作。
一个可参考的采用信号:McKinsey & Company 的全球调查显示,62% 的受访者称其组织至少在试验 AI agents。
这类试验的成败往往取决于同一个关键点:系统能否让 agent 在可控条件下安全改变业务状态。
企业级 LLM 技术栈:真正需要的分层
可以按层思考。架构形态可以不同,但缺层往往会在可靠性、合规或成本上“补交学费”。
1)体验层(Experience)
- Chat、copilot 面板、“生成”按钮、内联建议
- 针对敏感操作的人在回路(human-in-the-loop)审批
2)编排层(Orchestration)
- Prompt 模板、路由、工具选择约束
- 多步工作流(plan → retrieve → act → verify → write back)
- 护栏与状态机,为关键控制点提供更稳定的确定性
3)知识与数据层(Knowledge & Data)
- 文档 RAG
- 数据库 / ERP / CRM / 工单 / BI 连接器
- 数据分级、脱敏与血缘(lineage)
4)治理与安全层(Governance & Safety)
- 身份、RBAC/ABAC、审批
- 审计追踪与防篡改日志
- 与风险管理框架的对齐(内部 + 外部标准)
5)评测与运营层(LLMOps)
- 离线测试集与回归门禁
- 在线监控:工具调用失败率、幻觉信号、延迟、成本
- 事故响应与回滚策略
决定 LLM 系统成败的设计约束
可靠性:“好回答”与“可重复结果”
面向工作流,准确性只是必要条件,还需要:
- 结构化输出(schemas)
- 校验步骤(规则、检索引用、二次检查)
- 失败处理(带约束重试、降级路径、人工升级)
安全与隐私:数据边界要显式
常见要求包括:
- PII/机密检测与脱敏
- 租户隔离
- 工具调用白名单与参数校验
- Prompt injection 防护(把检索文本当作不可信输入)
成本与延迟:agent 很容易变贵
agentic 工作流可能把调用次数放大:retrieve + reason + tool + verify + summarize。通常需要:
- 检索与重复 prompt 的缓存
- “小模型优先”的路由(分类/抽取先走小模型)
- 任务/租户的预算控制(tokens、tool calls、timeouts)
可观测性:看不见就管不住
最低限度建议跟踪:
- 端到端任务完成率
- 工具调用错误率与超时
- 人工审批率
- 幻觉/落地信号(检索覆盖率、引用匹配等)
- 单个已完成工作流的单位成本
这对 AI 低代码平台意味着什么
LLM 能带来“自然语言生成应用”的演示,但企业价值更取决于:你能多快交付可治理工作流。
平台优势往往体现在:
- 业务对象与权限建模一次,多团队复用
- 可复用的编排模式跨团队扩散
- LLM 输出能够驱动真实的状态迁移,并留下审计证据
- 评测门禁与监控体系可运营
这也对应“AI 功能”与“AI 原生执行”的差异。
在 JitAI 的思路里,LLM 被当作系统内部可控的执行组件:能参与工作流、操作结构化业务对象、在权限与审计约束下安全回写。如果你想要一个上手路径,可以先从 JitAI 教程开始,然后再试用 JitAI。
一条可复用的构建路径:交付可安全执行的 LLM 系统
下面这套顺序适用于大多数企业 agent 场景(客服、运营、财务、采购、HR、合规等)。
Step 1:把“工作”定义成工作流,而不是一段 prompt
写清楚:
- 输入(工单、表单、邮件、记录)
- 必须的输出(字段、决策、更新)
- 允许的动作(创建/更新/通知/审批)
- 人工审批点
Step 2:先设计工具接口
做一组严格 schema 的工具:
- 搜索知识库
- 按 ID 取记录
- 只允许字段范围内的更新
- 创建任务 / 发送通知
- 发起审批
模型不参与“自由发挥式”的工具参数拼装。
Step 3:加入可度量覆盖率的检索
对每个任务:
- 定义权威来源
- 记录检索到的文档与片段 ID
- 高风险任务在检索为空时走“失败关闭”(fail closed)
Step 4:把策略放进系统层
策略要做到:即使不信任模型也能执行。
- RBAC/ABAC 权限校验
- 字段级写入限制
- 指定动作的强制审批
- 数据防泄漏(DLP)规则
Step 5:把验证作为一等公民步骤
示例:
- 抽取数值与来源文本交叉核验
- 格式与约束校验
- 一致性检查(日期、合计、必填项)
Step 6:上线前先做评测门禁
准备:
- 小型 gold dataset(50–200 个样本)
- 成功标准(准确率 + 工作流完成率)
- 针对 prompt / 工具 / 模型变更的回归测试
Step 7:用监控 + 事故预案运营
明确:
- 触发升级的条件(工具失败、高不确定、策略违规)
- 回滚不安全变更的方法
- 事后复盘流程(根因 + 新增评测用例)
角色与职业定位(2026 学什么更贴近需求)
如果你的搜索意图包含职业方向,可以参考这张“能力地图”:
- LLM application engineer:RAG + 工具工作流、schemas、评测
- Agent/workflow engineer:多步编排与安全门控设计
- LLMOps / AI operations:监控、成本控制、回归测试、发布管理
- AI governance partner:把控制点映射到 ISO/NIST,做文档与评审流程
- AI product builder:决定哪些任务交给模型执行、哪些做建议,设计审批 UX
更强的组合通常同时具备:系统思维 + 数据边界 + 工作流设计 + 评测纪律。
FAQ
LLM 和 AI agent 的区别是什么?
LLM 是模型。AI agent 是一种应用形态:模型能基于工具、状态与策略跨步骤规划并执行。
已有很强的模型,还需要 RAG 吗?
如果输出需要反映最新的内部制度、合同、工单或产品文档,检索是让输出可溯源、可审计的关键路径。
什么让 LLM 系统具备“企业可用性”?
身份与权限、工具校验、审计日志、评测门禁、监控体系,以及安全回写控制。
部署 LLM 一定需要 ISO/IEC 42001 吗?
并非普适要求,但它提供了更容易被采购与合规理解的管理体系结构,有助于跨团队对齐。
如何在生产中降低幻觉?
检索落地、结构化输出、验证步骤,以及在高影响动作上采用失败关闭或强制审批。
什么时候保留人类在回路?
当动作涉及资金、权限、合规决策、不可逆记录变更,或评测显示不确定性仍较高时。