跳到主要内容
版本:2.0.x

创建一个供 Agent 使用的语音识别服务

语音识别服务是可复用的 AI 元素。创建完成后,多个 Agent 可以按需选择同一个服务,也可以为不同业务场景准备不同的服务实例。

当前平台提供硅基流动语音识别类型。开发者只需要在 IDE 中创建元素,配置 API Key 和默认模型,即可让 Agent 使用该服务完成语音转文字。

从 AI 语音识别入口创建服务

进入 IDE 后,在左侧元素目录中找到AI 语音识别分类,点击添加入口创建语音识别服务。

创建时选择硅基流动语音识别,填写元素名称和标题。标题建议能体现服务用途,例如:

  • 客服语音识别
  • 移动端语音输入识别
  • 现场巡检语音识别
  • 会议纪要语音识别

保存后,语音识别服务会出现在列表中。点击服务即可进入配置编辑器。

配置 API Key

语音识别服务需要配置厂商 API Key。编辑器中提供API Key配置项,并支持使用环境变量保存敏感信息。

建议:

  • 不要把 API Key 直接写进可共享的说明文档或截图中。
  • 开发、测试、生产环境使用不同的 Key 或环境变量。
  • 当服务调用失败时,先检查 Key 是否有效、余额是否充足、网络是否可访问。

配置区提供申请 API Key入口,可跳转到对应厂商页面获取 Key。

选择默认识别模型

语音识别服务需要选择默认模型。默认模型决定语音转文字的基础能力和适用场景。

常见选择思路:

场景选择建议
普通中文对话、客服咨询、移动端输入优先使用推荐模型
语音内容更短、指令更明确使用默认模型即可
特定行业术语较多创建服务后用真实样本测试识别效果
多个场景差异明显为不同 Agent 准备不同服务实例

模型不是越多越好。建议先用一个稳定服务跑通业务链路,再根据识别效果和成本调整。

用名称和描述说明服务边界

语音识别服务可能被多个 Agent 复用,因此名称和描述要让后续维护者知道它适合什么场景。

推荐写法:

用于客服和移动端咨询 Agent 的中文语音输入识别,适合短语音问题和业务咨询,不用于长时间会议转写。

避免只写语音识别测试服务这类泛化名称。服务变多后,开发者很难判断该选哪一个。

保存后在 Agent 中选择使用

创建并保存语音识别服务后,它不会自动影响任何 Agent。开发者需要进入目标 Agent,在 基础配置 -> 输入 & 输出 中选择该服务。

下一步可以阅读为 Agent 开启语音输入能力