网页知识
# 网页知识
——通过这篇文章了解我们为您提供网页知识的使用方法及场景
# 网页知识的作用
我们希望您在了解网页知识功能之前,了解它的场景及用途:
● 使用场景:企业的许多知识保存在公开网页里,需要通过低成本方式将网页知识快速传入知识库,并且需要支持网页更新的同步能力。
● 用途:知识中心支持通过URL直接将网站中的知识同步至知识中心。此处需要您填写公开网址,我们将遵循robot.txt协议获取网页内容。
# 如何使用网页知识
以下将给您介绍每个功能点的作用和效果:
- 如何创建并设置网页知识
1.在【知识库管理】页面,点击【新建】按钮,建立网页知识知识库。
2.编辑知识库:筛选、设置知识库。
3.更新知识库:支持对整个网址进行同步更新;知识更新过程中将会失效,为避免影响大模型机器人使用,建议不要在客户咨询高峰期更新。
- 返回“网页禁止获取内容”说明
如果您在同步网页过程中返回了“网页禁止获取内容”提示,可以按照以下流程排查原因:
- 检查网站下是否存在robots.txt文件:
a. 当网站不存在robots.txt文件时,视为网站未授权第三方爬虫,会返回“网页禁止获取内容”。要查询网站下是否存在robots.txt文件,您可以通过在网站根目录后添加/robots.txt来查询网站的robots.txt文件,例如网页www.example.com/product/129330/ (opens new window)的robots.txt文件可通过www.example.com/robots.txt (opens new window)来查询。关于robots.txt的说明,可参考Google官方文档https://developers.google.com/search/docs/crawling-indexing/robots/robots_txt?hl=zh-cn (opens new window)。
b. 如果查询结果为空,需要为网站添加robots.txt文件,添加方式可参考https://developers.google.com/search/docs/crawling-indexing/robots/create-robots-txt?hl=zh-cn (opens new window)
检查网站robots.txt文件的User-Agent、Disallow和Allow:这三个字段定义了爬虫工具的网页爬虫范围。如果您输入的网页在Disallow的路径内,会返回“网页禁止获取内容”(Disallow: /代表所有网页不能爬虫)。如果您输入的网页在Disallow的路径内,请修改robots.txt协议的内容,例如变更为Allow: /
检查网站的sitemap文件:
a. 全站同步模式下,智齿目前会根据网站robots.txt的sitemap内子网页作为同步目标。关于sitemap可参考Google官方文档的介绍:https://developers.google.com/search/docs/crawling-indexing/sitemaps/overview?hl=zh-cn (opens new window)。如果robots.txt内不包含sitemap文件,会返回“网页禁止获取内容”。在此情况下,建议您为网站添加sitemap文件。
b. 在获取sitemap中的子网页时,我们会筛选出与您输入网址路径一致的网页并同步其内容(例如输入www.example.com/product (opens new window) 时,会筛选出www.example.com/product/129330 (opens new window)等网页,而不会同步www.example.com/helpcenter (opens new window)等无关网页)。如果sitemap中不包含与您输入网址路径一致的网页,会返回“网页禁止获取内容”。在此情况下,建议您在全站同步网页时尽量输入顶端域名,或者补充完善网站的sitemap。