为 Agent 开启语音输入能力
语音识别服务创建完成后,需要在 Agent 中选择使用。配置完成后,支持语音输入的聊天入口会显示录音能力,用户录音后平台会先转成文本,再交给 Agent 处理。
在输入输出配置中选择语音识别服务
打开目标 Agent,进入 基础配置 -> 输入 & 输出,找到语音识别服务配置项。
在下拉选择器中选择已经创建的语音识别服务。如果还没有服务,可以从选择器中直接创建支持的语音识别元素。
保存 Agent 后,语音输入能力会随 Agent 配置生效。
语音转写结果如何进入 Agent
用户在聊天入口录音后,平台会把音频发送给所选语音识别服务。服务返回文字后,文字会作为用户输入进入 Agent。
从 Agent 视角看,它收到的是一段普通文本。因此:
- System Prompts 中仍按文本输入编写任务说明。
- 工具、知识库、文件空间和 Skill 的配置方式不变。
- 输出格式仍由 Agent 的输入输出配置控制。
- 权限控制仍由角色中的 Agent 权限、数据模型权限、服务函数权限和门户权限决定。
语音输入与输入变量一起使用
语音输入适合承载自然语言描述,不适合承载所有结构化参数。
推荐组合:
- 用户用语音说清楚诉求、背景和补充说明。
- 页面或程序通过输入变量传入客户、订单、设备、区域等确定参数。
- Agent 用 System Prompts 说明如何同时使用语音文本和输入变量。
例如:
用户语音:这个客户反馈昨天安装后一直无法登录,让我们尽快处理。
输入变量:customerId=C10028,deviceId=D7781,serviceRegion=华南
Agent 任务:创建工单草稿,判断问题类型和紧急程度。
这样能降低语音识别误差对关键字段的影响。
在聊天入口验证语音输入
配置完成后,建议进入 Agent 聊天页面验证:
- 录一段短语音,确认能转成文本。
- 使用带业务术语的语音,检查识别准确率。
- 测试嘈杂环境或移动端浏览器中的录音体验。
- 确认 Agent 对转写文本的理解和回复符合预期。
- 检查浏览器麦克风权限和 HTTPS 环境。
如果录音按钮不可用,通常需要检查是否已选择语音识别服务、浏览器是否允许麦克风、当前访问环境是否支持录音。
什么时候不建议开启语音输入
以下场景不建议只依赖语音输入:
- 金额、证件号、订单号、物料编码等高精度字段录入。
- 强合规流程中必须逐项确认的内容。
- 需要长时间连续录音并逐字转写的会议场景。
- 现场噪声过大且无法复核转写文本的场景。
这些场景可以保留语音作为辅助描述,同时用表单字段、输入变量、文件上传或人工复核补齐关键数据。
Agent 侧输入变量和输出格式的完整说明见用输入输出配置让 Agent 可被程序稳定调用。