知识库管理
# 知识库管理
——通过这篇文章了解我们为您提供知识库管理的使用方法及场景
# 知识库管理的作用
我们希望您在了解知识管理功能之前,了解它的场景及用途:
● 使用场景:使用大模型机器人与用户会话之前需要为机器人配置知识库;当在线、呼叫、工单客服与用户会话时也可以使用知识库进行智能回复。
● 用途:使大模型机器人与客服更专业化,高效处理用户会话。
# 如何使用知识库
知识库分为本地知识库和网页知识库两种类型:
● 本地知识库:直接在智齿知识库创建问题、文章、文件或批量导入知识。
● 网页知识库:通过网页爬取知识(需开通大模型机器人产品)。
以下将给您介绍本地知识库的使用方式:
- 如何创建并添加知识
1.在【知识库管理】页面,点击【新建】按钮,建立本地知识库。
2.为知识库添加分类,适用于特定的业务需求。
3.为分类业务添加知识库,支持问题、文章、文件(excel、pdf、txt、docx)样式的知识库。
a. 文件:支持txt、pdf、docx、excel格式。已上传文件的内容均会被整合到RAG问答系统中参与检索生成。不推荐上传大量视觉设计和彩图的产品画册、信息结构不明显且文字较少的PPT转成的PDF。
b. 文章:支持多种富文本。为了更好的问答效果,我们建议在增加新知识时优先考虑文章形式,同时提倡一篇文章专注于解决一个特定的问题。例如,与其写一篇涵盖多个支付问题的文章——付款、退款和运费说明——不如写三篇文章,每个问题单独描述。同样,文章知识也将被整合到RAG问答系统中参与检索生成。
c. 问题:当某个特定的答案大模型润色后效果不好,您可以基于为其编写特定答案,这个答案不会被大模型润色。为提高命中概率,您可以添加相似问。对于用户问题,系统会首先通过NLP模型匹配,尝试找到标准问或相似问。如果匹配成功,系统将直接返回对应问题的答案,这一过程无需大模型的参与,从而提高了响应速度。如果NLP模型未匹配成功,该问题将被送入RAG问答系统中参与更深层次的检索和生成。
4.在【更多】中支持对知识库的启用、停用设定有效期与导出功能。
- 知识解析
知识库内已上传的每个文档都会解析、分块并向量化存储。您可以在知识详情页查看解析结果。
- 解析方式:对于普通文档,默认文本解析;对于部分特殊PDF文件,会进行多模态解析:
a. 扫描版PDF
b. 识别到文件中乱码占比超过5%或PDF图片面积超过单页面积的60%
c. PDF平均每页字数小于100或随机取页后每页上可提取的字符长度都小于100
- 分块方式:根据字体大小进行Markdown层级的标注,再根据Markdown不同的层级标识分为不同切片。分块时会考虑每个切片中的字符数,当段落字符数超过阈值时会被切分为两个片段。
a. 中文文档:块大小阈值(thres_chunk) = 300 字符;标题长度阈值(thres_title) = 30 字符。
b. 非中文文档:块大小阈值 = 500 字符,标题长度阈值 = 50 字符
编辑分块:文档分段对于知识库应用的问答效果有明显影响,在将知识应用于机器人问答之前,建议可以人工检查分段质量。过短的文本分段,导致语义缺失;过长的文本分段,导致语义噪音影响匹配准确性;明显的语义截断,在使用最大分段长度限制时会出现强制性的语义截断,导致召回时缺失内容。
特殊内容处理:
a. 表格:保持表格完整性,如果过大则按行分割
b. 问答对:保持问答配对完整
c. 标题:识别并标记层级关系
d. 目录:识别并移除目录部分
e. 图片:调整图片位置到上一个块末尾
网页知识→