版本：2.0.x

把现场语音变成 Agent 能处理的业务指令

AI 语音识别用于把用户的语音输入转换为文本，再交给 AI Agent 按普通消息继续处理。它解决的是：用户不方便打字时如何提交问题、现场作业如何快速记录需求、移动端如何用语音完成咨询和指令输入。

语音识别服务本身只负责“语音转文字”。Agent 仍然负责理解业务意图、调用工具、查询知识库、读写文件和返回结果。开发者需要先创建语音识别服务，再在 Agent 的输入输出配置中选择该服务。

语音识别在 Agent 链路中的位置

开启语音输入后，用户在聊天入口中录音，平台会先调用语音识别服务得到文本，再把文本填入或发送给 Agent。后续流程与普通文本消息一致。

这意味着语音识别不会改变 Agent 暴露给大模型的工具、知识库范围、文件空间配置和输出格式。它只是让“输入方式”从键盘扩展到麦克风。

以下场景适合为 Agent 配置语音识别服务：

如果用户主要在桌面端输入明确短句，或者业务要求非常精确的字段录入，文字输入通常更稳定。

语音识别解决“用户怎么把自然语言输入进来”，输入变量解决“程序调用或聊天预填参数怎么传入”，输出格式解决“Agent 结果如何被读取和处理”。

例如一个“工单登记 Agent”可以这样配置：

语音输入不适合承载所有业务参数。订单号、客户 ID、日期范围等必须稳定识别的内容，仍建议通过输入变量、页面组件或扫码等方式传入。

语音识别质量会影响 Agent 对任务的理解，但它不负责判断业务正确性。对于高风险操作，仍需要通过角色中的 Agent 权限、数据模型权限、服务函数权限、结构化输出和业务复核流程来控制风险；非授权调用会被运行时自动阻止。