跳到主要内容
版本:2.0.x

设计真实业务场景中的语音输入体验

语音输入不是简单把键盘换成麦克风。好的语音输入设计要考虑说话环境、用户习惯、关键字段准确性、失败兜底和 Agent 后续处理方式。

移动端咨询:让用户先说清楚问题

移动端用户经常不方便输入长文本。适合让用户用语音描述问题,再由 Agent 追问缺失信息或给出处理建议。

设计建议:

  • 欢迎语和预置问题引导用户“一次只描述一个问题”。
  • 对关键字段使用页面表单、扫码或输入变量传入。
  • Agent 回复中复述关键理解,方便用户确认。
  • 对识别不清的内容,要求 Agent 主动追问。

现场作业:语音负责描述,结构化字段负责准确

巡检、维修、仓储、门店等场景常有噪声和移动操作。语音适合记录现场现象、处理过程和补充说明,不适合单独承担精确编码录入。

推荐组合:

  • 设备编号、客户编号、位置通过页面上下文或扫码传入。
  • 用户用语音描述故障现象和处理动作。
  • Agent 生成工单草稿、风险提示或下一步检查清单。
  • 输出格式返回可确认的结构化字段。

客服坐席:把语音转成处理记录

客服坐席可以用语音快速记录客户诉求和处理经过,再由 Agent 总结为标准记录。

设计建议:

  • 使用 Skill 规定服务记录格式、分类规则和话术边界。
  • 使用知识库提供产品政策、常见问题和处理规范。
  • 使用输出格式返回问题分类、客户诉求、处理结果和后续动作。
  • 对涉及退款、赔付、升级等动作配置清晰的角色权限和业务复核流程。

会议和访谈:先限定短片段任务

如果目标是会议纪要或访谈整理,建议先从短片段开始,而不是直接依赖长时间连续转写。

适合的任务包括:

  • 把一段讨论整理为要点。
  • 从访谈片段中提取需求、痛点和行动项。
  • 将口述内容整理为日报、周报或工单备注。

长时间会议通常需要更完整的录音、分段、校对和归档流程。可以结合 AI 文件空间保存录音或整理后的文档,再由 Agent 继续加工。

语音输入上线前检查清单

上线前建议检查:

  • 已为目标 Agent 选择正确的语音识别服务。
  • API Key 使用环境变量保存,并已在目标环境中配置。
  • 真实设备和浏览器能正常录音。
  • 常见业务术语识别效果可接受。
  • 关键字段不只依赖语音识别。
  • Agent 会对不确定内容追问或提示用户确认。
  • 高风险动作有角色权限控制,非授权调用会被运行时自动阻止。

完成这些检查后,再将语音输入开放给更大范围的用户。