跳到主要内容

版本：2.0.x

设计真实业务场景中的语音输入体验

语音输入不是简单把键盘换成麦克风。好的语音输入设计要考虑说话环境、用户习惯、关键字段准确性、失败兜底和 Agent 后续处理方式。

移动端咨询：让用户先说清楚问题

移动端用户经常不方便输入长文本。适合让用户用语音描述问题，再由 Agent 追问缺失信息或给出处理建议。

设计建议：

欢迎语和预置问题引导用户“一次只描述一个问题”。
对关键字段使用页面表单、扫码或输入变量传入。
Agent 回复中复述关键理解，方便用户确认。
对识别不清的内容，要求 Agent 主动追问。

现场作业：语音负责描述，结构化字段负责准确

巡检、维修、仓储、门店等场景常有噪声和移动操作。语音适合记录现场现象、处理过程和补充说明，不适合单独承担精确编码录入。

推荐组合：

设备编号、客户编号、位置通过页面上下文或扫码传入。
用户用语音描述故障现象和处理动作。
Agent 生成工单草稿、风险提示或下一步检查清单。
输出格式返回可确认的结构化字段。

客服坐席：把语音转成处理记录

客服坐席可以用语音快速记录客户诉求和处理经过，再由 Agent 总结为标准记录。

设计建议：

使用 Skill 规定服务记录格式、分类规则和话术边界。
使用知识库提供产品政策、常见问题和处理规范。
使用输出格式返回问题分类、客户诉求、处理结果和后续动作。
对涉及退款、赔付、升级等动作配置清晰的角色权限和业务复核流程。

会议和访谈：先限定短片段任务

如果目标是会议纪要或访谈整理，建议先从短片段开始，而不是直接依赖长时间连续转写。

适合的任务包括：

把一段讨论整理为要点。
从访谈片段中提取需求、痛点和行动项。
将口述内容整理为日报、周报或工单备注。

长时间会议通常需要更完整的录音、分段、校对和归档流程。可以结合 AI 文件空间保存录音或整理后的文档，再由 Agent 继续加工。

语音输入上线前检查清单

上线前建议检查：

已为目标 Agent 选择正确的语音识别服务。
API Key 使用环境变量保存，并已在目标环境中配置。
真实设备和浏览器能正常录音。
常见业务术语识别效果可接受。
关键字段不只依赖语音识别。
Agent 会对不确定内容追问或提示用户确认。
高风险动作有角色权限控制，非授权调用会被运行时自动阻止。

完成这些检查后，再将语音输入开放给更大范围的用户。

移动端咨询：让用户先说清楚问题
现场作业：语音负责描述，结构化字段负责准确
客服坐席：把语音转成处理记录
会议和访谈：先限定短片段任务
语音输入上线前检查清单