创建一个供 Agent 使用的语音识别服务
语音识别服务是可复用的 AI 元素。创建完成后,多个 Agent 可以按需选择同一个服务,也可以为不同业务场景准备不同的服务实例。
当前平台提供硅基流动语音识别类型。开发者只需要在 IDE 中创建元素,配置 API Key 和默认模型,即可让 Agent 使用该服务完成语音转文字。
从 AI 语音识别入口创建服务
进入 IDE 后,在左侧元素目录中找到AI 语音识别分类,点击添加入口创建语音识别服务。
创建时选择硅基流动语音识别,填写元素名称和标题。标题建议能体现服务用途,例如:
客服语音识别移动端语音输入识别现场巡检语音识别会议纪要语音识别
保存后,语音识别服务会出现在列表中。点击服务即可进入配置编辑器。
配置 API Key
语音识别服务需要配置厂商 API Key。编辑器中提供API Key配置项,并支持使用环境变量保存敏感信息。
建议:
- 不要把 API Key 直接写进可共享的说明文档或截图中。
- 开发、测试、生产环境使用不同的 Key 或环境变量。
- 当服务调用失败时,先检查 Key 是否有效、余额是否充足、网络是否可访问。
配置区提供申请 API Key入口,可跳转到对应厂商页面获取 Key。
选择默认识别模型
语音识别服务需要选择默认模型。默认模型决定语音转文字的基础能力和适用场景。
常见选择思路:
| 场景 | 选择建议 |
|---|---|
| 普通中文对话、客服咨询、移动端输入 | 优先使用推荐模型 |
| 语音内容更短、指令更明确 | 使用默认模型即可 |
| 特定行业术语较多 | 创建服务后用真实样本测试识别效果 |
| 多个场景差异明显 | 为不同 Agent 准备不同服务实例 |
模型不是越多越好。建议先用一个稳定服务跑通业务链路,再根据识别效果和成本调整。
用名称和描述说明服务边界
语音识别服务可能被多个 Agent 复用,因此名称和描述要让后续维护者知道它适合什么场景。
推荐写法:
用于客服和移动端咨询 Agent 的中文语音输入识别,适合短语音问题和业务咨询,不用于长时间会议转写。
避免只写语音识别、测试服务这类泛化名称。服务变多后,开发者很难判断该选哪一个。
保存后在 Agent 中选择使用
创建并保存语音识别服务后,它不会自动影响任何 Agent。开发者需要进入目标 Agent,在 基础配置 -> 输入 & 输出 中选择该服务。
下一步可以阅读为 Agent 开启语音输入能力。