把现场语音变成 Agent 能处理的业务指令
AI 语音识别用于把用户的语音输入转换为文本,再交给 AI Agent 按普通消息继续处理。它解决的是:用户不方便打字时如何提交问题、现场作业如何快速记录需求、移动端如何用语音完成咨询和指令输入。
语音识别服务本身只负责“语音转文字”。Agent 仍然负责理解业务意图、调用工具、查询知识库、读写文件和返回结果。开发者需要先创建语音识别服务,再在 Agent 的输入输出配置中选择该服务。
语音识别在 Agent 链路中的位置
开启语音输入后,用户在聊天入口中录音,平台会先调用语音识别服务得到文本,再把文本填入或发送给 Agent。后续流程与普通文本消息一致。
这意味着语音识别不会改变 Agent 暴露给大模型的工具、知识库范围、文件空间配置和输出格式。它只是让“输入方式”从键盘扩展到麦克风。
什么场景适合开启语音输入
以下场景适合为 Agent 配置语音识别服务:
- 移动端咨询:用户在手机上通过语音描述问题,减少长文本输入成本。
- 现场作业:巡检、维修、仓储、门店等场景中,用户双手不方便输入。
- 客服坐席:坐席快速口述客户问题、处理过程和下一步动作。
- 会议和访谈记录:把短语音片段转为文字,再由 Agent 总结、归类或生成待办。
- 低频复杂指令:用户临时描述一段较长需求,让 Agent 转成结构化处理任务。
如果用户主要在桌面端输入明确短句,或者业务要求非常精确的字段录入,文字输入通常更稳定。
语音识别、输入变量和输出格式如何配合
语音识别解决“用户怎么把自然语言输入进来”,输入变量解决“程序调用或聊天预填参数怎么传入”,输出格式解决“Agent 结果如何被读取和处理”。
例如一个“工单登记 Agent”可以这样配置:
- 用户用语音描述问题现象。
- 输入变量提供客户编号、设备编号、服务区域等已知参数。
- Agent 根据语音文本和输入变量创建工单草稿。
- 输出格式返回工单标题、问题分类、紧急程度和处理建议。
语音输入不适合承载所有业务参数。订单号、客户 ID、日期范围等必须稳定识别的内容,仍建议通过输入变量、页面组件或扫码等方式传入。
与大模型、知识库、Skill 的分工
| 能力 | 主要职责 |
|---|---|
| AI 语音识别 | 把用户录音转成文本 |
| AI Agent | 理解文本意图,规划任务并执行动作 |
| 输入输出配置 | 定义参数来源和返回结果结构 |
| 知识库 | 提供可检索的业务资料 |
| Skill | 提供可复用的流程、规则和输出规范 |
语音识别质量会影响 Agent 对任务的理解,但它不负责判断业务正确性。对于高风险操作,仍需要通过角色中的 Agent 权限、数据模型权限、服务函数权限、结构化输出和业务复核流程来控制风险;非授权调用会被运行时自动阻止。
推荐配置顺序
建议按下面顺序接入语音输入:
- 判断目标 Agent 是否真的需要语音输入。
- 创建语音识别服务并配置 API Key 和默认模型。
- 在 Agent 的
基础配置->输入 & 输出中选择语音识别服务。 - 在真实使用入口测试录音、转写和 Agent 响应。
- 根据业务场景补充输入变量、输出格式和权限控制。
如果你已经准备开始配置,可以继续阅读创建一个供 Agent 使用的语音识别服务。