Dify
简体中文
简体中文
  • 入门
    • 欢迎使用 Dify
      • 特性与技术规格
      • 模型供应商列表
    • 云服务
    • 社区版
      • Docker Compose 部署
      • 本地源码启动
      • 宝塔面板部署
      • 单独启动前端 Docker 容器
      • 环境变量说明
      • 常见问题
    • Dify Premium
    • Dify 教育版
  • 手册
    • 接入大模型
      • 增加新供应商
      • 预定义模型接入
      • 自定义模型接入
      • 接口方法
      • 配置规则
      • 负载均衡
    • 构建应用
      • 创建应用
      • 聊天助手
        • 多模型调试
      • Agent
      • 应用工具箱
        • 敏感内容审查
    • 工作流
      • 关键概念
      • 变量
      • 节点说明
        • 开始
        • LLM
        • 知识检索
        • 问题分类
        • 条件分支
        • 代码执行
        • 模板转换
        • 文档提取器
        • 列表操作
        • 变量聚合
        • 变量赋值
        • 迭代
        • 参数提取
        • HTTP 请求
        • Agent
        • 工具
        • 结束
        • 直接回复
        • 循环
      • 快捷键
      • 编排节点
      • 文件上传
      • 异常处理
        • 预定义异常处理逻辑
        • 错误类型
      • 附加功能
      • 预览与调试
        • 预览与运行
        • 单步调试
        • 对话/运行日志
        • 检查清单
        • 运行历史
      • 应用发布
      • 结构化输出
      • 变更公告:图片上传被替换为文件上传
    • 知识库
      • 创建知识库
        • 1. 导入文本数据
          • 1.1 从 Notion 导入数据
          • 1.2 从网页导入数据
        • 2. 指定分段模式
        • 3. 设定索引方法与检索设置
      • 管理知识库
        • 维护知识库内文档
        • 通过 API 维护知识库
      • 元数据
      • 在应用内集成知识库
      • 召回测试/引用归属
      • 知识库请求频率限制
      • 连接外部知识库
      • 外部知识库 API
    • 工具
      • 快速接入工具
      • 高级接入工具
      • 工具配置
        • Google
        • Bing
        • SearchApi
        • StableDiffusion
        • Dall-e
        • Perplexity Search
        • AlphaVantage 股票分析
        • Youtube
        • SearXNG
        • Serper
        • SiliconFlow (支持 Flux 绘图)
        • ComfyUI
    • 发布
      • 发布为公开 Web 站点
        • Web 应用的设置
        • 文本生成型应用
        • 对话型应用
      • 嵌入网站
      • 基于 APIs 开发
      • 基于前端组件再开发
    • 标注
      • 日志与标注
      • 标注回复
    • 监测
      • 集成外部 Ops 工具
        • 集成 LangSmith
        • 集成 Langfuse
        • 集成 Opik
      • 数据分析
    • 扩展
      • API 扩展
        • 使用 Cloudflare Workers 部署 API Tools
        • 敏感内容审查
      • 代码扩展
        • 外部数据工具
        • 敏感内容审查
    • 协同
      • 发现
      • 邀请与管理成员
    • 管理
      • 应用管理
      • 团队成员管理
      • 个人账号管理
      • 订阅管理
      • 版本管理
  • 动手实验室
    • 初级
      • 如何搭建 AI 图片生成应用
      • AI Agent 实战:搭建个人在线旅游助手
    • 中级
      • 使用文件上传搭建文章理解助手
      • 使用知识库搭建智能客服机器人
      • ChatFlow 实战:搭建 Twitter 账号分析助手
  • 社区
    • 寻求支持
    • 成为贡献者
    • 为 Dify 文档做出贡献
  • 插件
    • 功能简介
    • 快速开始
      • 安装与使用插件
      • 插件开发
        • 初始化开发工具
        • Tool 插件
        • Model 插件
          • 创建模型供应商
          • 接入预定义模型
          • 接入自定义模型
        • Agent 策略插件
        • Extension 插件
        • Bundle 插件包
      • 插件调试
    • 插件管理
    • 接口定义
      • Manifest
      • Endpoint
      • Tool
      • Agent
      • Model
        • 模型设计规则
        • 模型接口
      • 通用规范定义
      • 持久化存储
      • 反向调用 Dify 服务
        • App
        • Model
        • Tool
        • Node
    • 最佳实践
      • 开发 Slack Bot 插件
      • Dify MCP 插件指南:一键连接 Zapier 并自动发送邮件
    • 发布插件
      • 自动发布插件
      • 发布至 Dify Marketplace
        • 插件开发者准则
        • 插件隐私政策准则
      • 发布至个人 GitHub 仓库
      • 本地发布与分享
      • 第三方签名验证
    • 常见问题
  • 研发
    • 后端
      • DifySandbox
        • 贡献指南
    • 模型接入
      • 接入 Hugging Face 上的开源模型
      • 接入 Replicate 上的开源模型
      • 接入 Xinference 部署的本地模型
      • 接入 OpenLLM 部署的本地模型
      • 接入 LocalAI 部署的本地模型
      • 接入 Ollama 部署的本地模型
      • 接入 LiteLLM 代理的模型
      • 接入 GPUStack 进行本地模型部署
      • 接入 AWS Bedrock 上的模型(DeepSeek)
    • 迁移
      • 将社区版迁移至 v1.0.0
  • 阅读更多
    • 应用案例
      • DeepSeek 与 Dify 集成指南:打造具备多轮思考的 AI 应用
      • 本地私有化部署 DeepSeek + Dify,构建你的专属私人 AI 助手
      • 如何训练出专属于“你”的问答机器人?
      • 教你十几分钟不用代码创建 Midjourney 提示词机器人
      • 构建一个 Notion AI 助手
      • 如何在几分钟内创建一个带有业务数据的官网 AI 智能客服
      • 使用全套开源工具构建 LLM 应用实战:在 Dify 调用 Baichuan 开源模型能力
      • 手把手教你把 Dify 接入微信生态
      • 使用 Dify 和 Twilio 构建 WhatsApp 机器人
      • 将 Dify 应用与钉钉机器人集成
      • 使用 Dify 和 Azure Bot Framework 构建 Microsoft Teams 机器人
      • 如何让 LLM 应用提供循序渐进的聊天体验?
      • 如何将 Dify Chatbot 集成至 Wix 网站?
      • 如何连接 AWS Bedrock 知识库?
      • 构建 Dify 应用定时任务助手
      • 如何在 Dify 内体验大模型“竞技场”?以 DeepSeek R1 VS o1 为例
      • 在 Dify 云端构建 AI Thesis Slack Bot
      • 将 Dify 快速接入 QQ、微信、飞书、钉钉、Telegram、Discord 等平台
    • 扩展阅读
      • 什么是 LLMOps?
      • 什么是数组变量?
      • 检索增强生成(RAG)
        • 混合检索
        • 重排序
        • 召回模式
      • 提示词编排
      • 如何使用 JSON Schema 让 LLM 输出遵循结构化格式的内容?
    • 常见问题
      • 本地部署
      • LLM 配置与使用
      • 插件
  • 政策
    • 开源许可证
    • 用户协议
      • 服务条款
      • 隐私政策
      • 获取合规报告
Powered by GitBook
On this page
  • 管理知识库中的文档
  • 添加文档
  • 启用 / 禁用 / 归档 / 删除文档
  • 管理文本分段
  • 查看文本分段
  • 检查分段质量
  • 添加文本分段
  • 编辑文本分段
  • 修改已上传文档的文本分段
  • 元数据管理
  1. 手册
  2. 知识库
  3. 管理知识库

维护知识库内文档

Previous管理知识库Next通过 API 维护知识库

Last updated 3 months ago

管理知识库中的文档

添加文档

知识库是文档的集合。文档支持本地上传,或导入其它在线数据源。知识库内的文档对应数据源中的一个文件单位,例如 Notion 库内的一篇文档或新的在线文档网页。

点击“知识库” → “文档列表” → “添加文件”,在已创建的知识库内上传新的文档。

在知识库内上传新文档

启用 / 禁用 / 归档 / 删除文档

启用:处于正常使用状态的文档,支持编辑内容与被知识库检索。对于已被禁用的文档,允许重新启用。已归档的文档需撤销归档状态后才能重新启用。

禁用:对于不希望在使用 AI 应用时被检索的文档,可以关闭文档右侧的蓝色开关按钮以禁用文档。禁用文档后,仍然可以编辑当前内容。

归档:对于一些不再使用的旧文档数据,如果不想删除可以将其归档。归档后的数据就只能查看或删除,无法重新编辑。你可以在知识库文档列表,点击归档按钮;或在文档详情页内进行归档。归档操作支持撤销。

删除:⚠️ 危险操作。对于一些错误文档或明显有歧义的内容,可以点击文档右侧菜单按钮中的删除。删除后的内容将无法被找回,请进行谨慎操作。

以上选项均支持选中多个文档后批量操作。

注意:

如果你的知识库中有部分文档长时间未更新或未检索时,为了确保知识库的高效运行,系统会暂时禁用这部分不活跃的文档。

  • 对于 Sandbox/Free 版本用户,未使用知识库的将在 7 天后自动禁用;

  • 对于 Professional/Team 版本用户,未使用知识库的将在 30 天后自动禁用。

你随时可以前往知识库中重新启用它们以恢复正常使用。付费用户可以使用 “一键恢复” 功能快速启用所有被禁用的文档。


管理文本分段

查看文本分段

知识库内已上传的每个文档都会以文本分段(Chunks)形式进行存储。点击文档标题,在详情页中查看当前文档的分段列表,每页默认展示 10 个区块,你可以在网页底部调整每页的展示数量。

每个内容区块展示前 2 行的预览内容。若需要查看更加分段内的完整内容,轻点“展开分段”按钮即可查看。

你可以通过筛选栏快速查看所有已启用 / 未启用的文档。

通用模式

点击顶部文档标题即可快速切换至当前知识库内的其它文档。

父子模式

  • 父分段

    选择知识库内的文档后,你将会首先看到父分段的内容。父分段存在 “段落” 分段与 “全文” 分段两种模式,提供更加完整的上下文信息。下图为不同分段模式的文本预览差异。

  • 子分段

    子分段一般为段落中的某个句子(较小的文本块),包含细节信息。各个分块均会展示字符数以及被检索召回的次数。轻点“子分段”即可查看更多详细内容。若希望查看区块内的完整内容,轻点区块右上角的全屏 icon 进入全屏阅读模式。

Q&A 模式

在 Q&A 模式下,一个内容区块包含问题与答案,轻点任意文档标题即可查看文本分段。


检查分段质量

文档分段对于知识库应用的问答效果有明显影响,在将知识库与应用关联之前,建议人工检查分段质量。

通过字符长度、标识符或者 NLP 语义分段等机器自动化的分段方式虽然能够显著减少大规模文本分段的工作量,但分段质量与不同文档格式的文本结构、前后文的语义联系都有关系,通过人工检查和订正可以有效弥补机器分段在语义识别方面的缺点。

检查分段质量时,一般需要关注以下几种情况:

  • 过短的文本分段,导致语义缺失;

  • 过长的文本分段,导致语义噪音影响匹配准确性;

  • 明显的语义截断,在使用最大分段长度限制时会出现强制性的语义截断,导致召回时缺失内容;


添加文本分段

知识库中的文档支持单独添加文本分段,不同的分段模式对应不同的分段添加方法。

通用模式

点击分段列表顶部的 “添加分段” 按钮,可以在文档内自行添加一个或批量添加多个自定义分段。

手动添加文本分段时,你可以选择添加正文和关键词。内容填写后,勾选尾部 “连续新增” 钮后,可以继续添加文本。

批量添加分段时,你需要先下载 CSV 格式的分段上传模板,并按照模板格式在 Excel 内编辑所有的分段内容,再将 CSV 文件保存后上传。

父子模式

点击分段列表顶部的 「 添加分段 」 按钮,可以在文档内自行添加一个或批量添加多个自定义父分段。

填写内容后,勾选尾部 “连续新增” 钮后,可以继续添加文本。

支持在父分段内单独添加子分段。轻点父分段内子分段右侧的“添加”,即可单独添加子分段。

Q&A 模式

点击分段列表顶部的 「 添加分段 」 按钮,可以在文档内自行添加一个或批量添加多个问题-答案内容对区块。


编辑文本分段

通用模式

你可以对已添加的分段内容直接进行编辑或修改,包括修改分段内的文本内容或关键词。

为避免遗忘导致的重复编辑,编辑后内容区块将出现“已编辑”标签提示。

父子模式

父分段包含其本身所包含的子分段内容,两者相互独立。你可以单独修改父分段或子分段的内容。下图为修改父子分段间的流程说明:

修改父分段:轻点父分段右侧的编辑按钮,填写内容。点击 “保存” 后将不会影响子分段的内容。如需重新生成子分段内容,轻点 “保存并重新生成子分段”。

为避免遗忘导致的重复编辑,编辑后内容区块将出现“已编辑”标签提示。

修改子分段: 选择任意子分段后进入编辑模式,修改完成后即可保存。修改后不会影响父分段中的内容。被编辑过或新增的子分段区块会被打上 C-NUMBER-EDITED的深蓝色标签。

你也可以将子段视作当前父文本块的标签。

Q&A 模式

在 Q&A 分段模式下,一个内容区块包含问题与答案。点击需要编辑的文本分段,可以分别对问题和答案内容做出修改;同时也支持修改当前区块的关键词。

修改已上传文档的文本分段

已创建的知识库支持重新配置文档分段。

较大分段

  • 可在单个分段内保留更多上下文,适合需要处理复杂或上下文相关任务的场景。

  • 分段数量减少,从而降低处理时间和存储需求。

较小分段

  • 提供更高的粒度,适合精确提取或总结文本内容。

  • 减少超出模型 token 限制的风险,更适配限制严格的模型。

你可以访问 分段设置,点击 保存并处理 按钮以保存对分段设置的修改,并重新触发当前文档的分段流程。 当你保存设置并完成嵌入处理后,文档的分段列表将自动更新,无需手动刷新页面。


元数据管理

禁用或归档文档
一键恢复被禁用的文档
展开内容分段
筛选文档分段

不同的对应不同的文本分段查看方式:

下的文本分段为独立的区块。若希望查看区块内的完整内容,轻点右上角的全屏 icon 进入全屏阅读模式。

进入全屏阅读模式
通用模式-内容分段

下的内容分为父分段和子分段。

段落与全文的预览差异
父子模式-内容分段
Q&A 模式 - 查看文本分段
过短的文本分段
过长的文本分段
明显的语义截断

添加文本分段为付费功能,请前往升级账号以使用功能。

通用模式 - 添加分段
通用模式 - 添加文本分段
通用模式 - 批量添加自定义分段
父子模式 — 添加区块
父子模式 - 添加内容区块
父子模式 — 添加子分段
编辑文档分段
修改父子分段原理图
父子模式 - 修改父分段
父子模式 - 修改子分段
Q&A 模式 - 修改文本分段
Chunk Settings

如需了解元数据的相关信息,请参阅 。

文本分段模式
通用模式
父子模式
此处
元数据