跳到主要内容
版本:2.0.x

为 Agent 开启语音输入能力

语音识别服务创建完成后,需要在 Agent 中选择使用。配置完成后,支持语音输入的聊天入口会显示录音能力,用户录音后平台会先转成文本,再交给 Agent 处理。

在输入输出配置中选择语音识别服务

打开目标 Agent,进入 基础配置 -> 输入 & 输出,找到语音识别服务配置项。

在下拉选择器中选择已经创建的语音识别服务。如果还没有服务,可以从选择器中直接创建支持的语音识别元素。

保存 Agent 后,语音输入能力会随 Agent 配置生效。

语音转写结果如何进入 Agent

用户在聊天入口录音后,平台会把音频发送给所选语音识别服务。服务返回文字后,文字会作为用户输入进入 Agent。

从 Agent 视角看,它收到的是一段普通文本。因此:

  • System Prompts 中仍按文本输入编写任务说明。
  • 工具、知识库、文件空间和 Skill 的配置方式不变。
  • 输出格式仍由 Agent 的输入输出配置控制。
  • 权限控制仍由角色中的 Agent 权限、数据模型权限、服务函数权限和门户权限决定。

语音输入与输入变量一起使用

语音输入适合承载自然语言描述,不适合承载所有结构化参数。

推荐组合:

  • 用户用语音说清楚诉求、背景和补充说明。
  • 页面或程序通过输入变量传入客户、订单、设备、区域等确定参数。
  • Agent 用 System Prompts 说明如何同时使用语音文本和输入变量。

例如:

用户语音:这个客户反馈昨天安装后一直无法登录,让我们尽快处理。
输入变量:customerId=C10028,deviceId=D7781,serviceRegion=华南
Agent 任务:创建工单草稿,判断问题类型和紧急程度。

这样能降低语音识别误差对关键字段的影响。

在聊天入口验证语音输入

配置完成后,建议进入 Agent 聊天页面验证:

  1. 录一段短语音,确认能转成文本。
  2. 使用带业务术语的语音,检查识别准确率。
  3. 测试嘈杂环境或移动端浏览器中的录音体验。
  4. 确认 Agent 对转写文本的理解和回复符合预期。
  5. 检查浏览器麦克风权限和 HTTPS 环境。

如果录音按钮不可用,通常需要检查是否已选择语音识别服务、浏览器是否允许麦克风、当前访问环境是否支持录音。

什么时候不建议开启语音输入

以下场景不建议只依赖语音输入:

  • 金额、证件号、订单号、物料编码等高精度字段录入。
  • 强合规流程中必须逐项确认的内容。
  • 需要长时间连续录音并逐字转写的会议场景。
  • 现场噪声过大且无法复核转写文本的场景。

这些场景可以保留语音作为辅助描述,同时用表单字段、输入变量、文件上传或人工复核补齐关键数据。

Agent 侧输入变量和输出格式的完整说明见用输入输出配置让 Agent 可被程序稳定调用