设计真实业务场景中的语音输入体验
语音输入不是简单把键盘换成麦克风。好的语音输入设计要考虑说话环境、用户习惯、关键字段准确性、失败兜底和 Agent 后续处理方式。
移动端咨询:让用户先说清楚问题
移动端用户经常不方便输入长文本。适合让用户用语音描述问题,再由 Agent 追问缺失信息或给出处理建议。
设计建议:
- 欢迎语和预置问题引导用户“一次只描述一个问题”。
- 对关键字段使用页面表单、扫码或输入变量传入。
- Agent 回复中复述关键理解,方便用户确认。
- 对识别不清的内容,要求 Agent 主动追问。
现场作业:语音负责描述,结构化字段负责准确
巡检、维修、仓储、门店等场景常有噪声和移动操作。语音适合记录现场现象、处理过程和补充说明,不适合单独承担精确编码录入。
推荐组合:
- 设备编号、客户编号、位置通过页面上下文或扫码传入。
- 用户用语音描述故障现象和处理动作。
- Agent 生成工单草稿、风险提示或下一步检查清单。
- 输出格式返回可确认的结构化字段。
客服坐席:把语音转成处理记录
客服坐席可以用语音快速记录客户诉求和处理经过,再由 Agent 总结为标准记录。
设计建议:
- 使用 Skill 规定服务记录格式、分类规则和话术边界。
- 使用知识库提供产品政策、常见问题和处理规范。
- 使用输出格式返回问题分类、客户诉求、处理结果和后续动作。
- 对涉及退款、赔付、升级等动作配置清晰的角色权限和业务复核流程。
会议和访谈:先限定短片段任务
如果目标是会议纪要或访谈整理,建议先从短片段开始,而不是直接依赖长时间连续转写。
适合的任务包括:
- 把一段讨论整理为要点。
- 从访谈片段中提取需求、痛点和行动项。
- 将口述内容整理为日报、周报或工单备注。
长时间会议通常需要更完整的录音、分段、校对和归档流程。可以结合 AI 文件空间保存录音或整理后的文档,再由 Agent 继续加工。
语音输入上线前检查清单
上线前建议检查:
- 已为目标 Agent 选择正确的语音识别服务。
- API Key 使用环境变量保存,并已在目标环境中配置。
- 真实设备和浏览器能正常录音。
- 常见业务术语识别效果可接受。
- 关键字段不只依赖语音识别。
- Agent 会对不确定内容追问或提示用户确认。
- 高风险动作有角色权限控制,非授权调用会被运行时自动阻止。
完成这些检查后,再将语音输入开放给更大范围的用户。