跳到主要内容
版本:2.0.x

管理知识库资料并验证检索效果

AI 知识库创建完成后,需要在知识库编辑器中添加资料并等待处理完成。知识库编辑器包含Document ManagementKnowledge SettingsQuery Test三个页签,分别用于维护资料、调整检索参数和验证查询效果。

添加本地文档或网页资料

Document Management页添加与维护 AI 知识库文档:

Loading...

点击Add File,弹出添加文件滑窗。

Loading...

选择数据源步骤中,可以选择两类资料来源:

  • Local Files:点击虚线框选择文件,或将文件拖入虚线框,等待上传完成后点击Next
  • Web URL:输入起始 URL,点击Add URL Task添加网页抓取任务,可配置抓取深度、最大抓取时长、最大文档数、智能正文提取,以及 URL 白名单/黑名单规则。
提示

本地文档支持 PDF、DOCX、TXT、MD。单个文件大小不超过 10MB,单次最多上传 20 个文件,批量总大小不超过 500MB。

Loading...

进入分段及清洗步骤后,根据资料内容配置分段标识符分段最大长度分段重叠长度清洗设置,配置完成后点击Next。参数说明参考向量化配置

Loading...

进入处理并完成步骤后,系统会在后台处理每一个文档。可等待所有文档向量化完成,也可点击返回文档列表直接关闭滑窗,后台处理流程不会中断。

Loading...

在文档列表中可以搜索文档标题、刷新处理状态、重新向量化文档或删除文档。Web URL 类型的文档还可以查看网页抓取信息。

根据查询效果调整知识库设置

Knowledge Settings中的配置项会影响搜索结果准确性和最终返回内容的大小。

Loading...

向量数据库向量模型创建后不可直接修改。开发者可以根据查询测试的反馈,动态调整重排模型TopKTopN向量相似度阈值重排分数阈值等参数。

重排模型为可选项。不配置重排模型时,知识库直接返回向量检索结果,TopN重排分数阈值不参与重排过滤;配置重排模型后,可以用它提升候选片段排序质量。

如果已配置重排模型,可以开启启用关键词召回,并设置关键词召回数量上限。开启后,查询会同时执行向量召回和关键词召回,再合并去重并重排。它适合资料中包含大量专有名词、编号、产品型号、制度条款号、缩写和固定术语的场景。

提示

关键词召回依赖重排模型。未配置重排模型时,即使界面中尝试开启,知识库也不会使用关键词召回。

提示

提高准确性需要先了解设置如何参与查询流程。修改配置项后需点击保存,才能在查询测试中生效。

用查询测试检查资料是否命中

Query Test用于调试 AI 知识库的检索效果。

Loading...

输入问题后点击Test Query,系统会理解查询语义并返回结果;同时显示命中的文档片段数量、每个片段的向量相似度评分与重排分数评分。开启关键词召回后,查询测试还会展示向量召回数量、关键词召回数量、合并去重数量和重排数量,并在结果上标识向量召回关键词召回双路命中。如果命中了关键词,结果中会显示匹配到的关键词。

这些信息可以帮助开发者判断问题出在哪里:

  • 向量召回少:优先检查向量模型、分段长度、TopK 和相似度阈值。
  • 关键词召回少:检查用户问题中的关键词是否与文档原文一致,或适当增大关键词召回数量上限。
  • 合并去重后数量少:说明两路召回高度重叠,通常是正常现象。
  • 重排后结果不理想:检查重排模型、TopN 和重排分数阈值。

建议至少测试三类问题:

  • 资料内问题:应能命中正确文档片段。
  • 相似但不同的问题:检查是否误命中无关资料。
  • 资料外问题:确认没有资料依据时不会返回误导性内容。

向量化配置说明

  • 分段标识符:用于拆分文档的分隔符,可选择多个。系统按所有选择的分隔符进行分段。
  • 分段最大长度:每个文本块的最大字符数,建议 500–2000。小块更精确但可能丢失上下文;大块保留更多上下文但可能不够精确。
  • 分段重叠长度:相邻文本块的重叠字符数,建议为块大小的 10%–20%。
  • 开启分段清洗:提升文本质量与检索精度的清洗功能,如空白清理、全角转半角、断行修复等。

知识库配置参数说明

参数名称默认值建议范围说明
向量模型--决定文档与查询的语义理解能力,创建后不可修改
重排模型--可选。对召回结果进行精细排序,可随时更换以优化效果
TopK501-100向量召回条数,控制初步检索的文档数量
TopN51-10最终返回给用户的文档片段数量;配置重排模型后表示重排后返回条数
向量相似度阈值 (vectorScore)0.60.1-1.0过滤召回结果,值越高要求越严格
重排分数阈值 (reRankScore)0.30.1-1.0配置重排模型后生效,过滤重排结果,值越高要求越精确
启用关键词召回关闭开启/关闭配置重排模型后可开启。开启后与向量召回并行执行,再合并去重并重排
关键词召回数量上限101-50控制关键词召回最多返回多少个候选片段。资料中专有名词较多时可适当增大
参数建议

一般建议先增大 TopK 扩大召回覆盖,再通过 vectorScore 过滤明显无关内容。若配置了重排模型,再用 reRankScore 做精细过滤。资料中存在大量编号、型号、条款号和固定术语时,再开启关键词召回补足精确词命中。