Dify
简体中文
简体中文
  • 入门
    • 欢迎使用 Dify
      • 特性与技术规格
      • 模型供应商列表
    • 云服务
    • 社区版
      • Docker Compose 部署
      • 本地源码启动
      • 宝塔面板部署
      • 单独启动前端 Docker 容器
      • 环境变量说明
      • 常见问题
    • Dify Premium
    • Dify 教育版
  • 手册
    • 接入大模型
      • 增加新供应商
      • 预定义模型接入
      • 自定义模型接入
      • 接口方法
      • 配置规则
      • 负载均衡
    • 构建应用
      • 创建应用
      • 聊天助手
        • 多模型调试
      • Agent
      • 应用工具箱
        • 敏感内容审查
    • 工作流
      • 关键概念
      • 变量
      • 节点说明
        • 开始
        • LLM
        • 知识检索
        • 问题分类
        • 条件分支
        • 代码执行
        • 模板转换
        • 文档提取器
        • 列表操作
        • 变量聚合
        • 变量赋值
        • 迭代
        • 参数提取
        • HTTP 请求
        • Agent
        • 工具
        • 结束
        • 直接回复
        • 循环
      • 快捷键
      • 编排节点
      • 文件上传
      • 异常处理
        • 预定义异常处理逻辑
        • 错误类型
      • 附加功能
      • 预览与调试
        • 预览与运行
        • 单步调试
        • 对话/运行日志
        • 检查清单
        • 运行历史
      • 应用发布
      • 结构化输出
      • 变更公告:图片上传被替换为文件上传
    • 知识库
      • 创建知识库
        • 1. 导入文本数据
          • 1.1 从 Notion 导入数据
          • 1.2 从网页导入数据
        • 2. 指定分段模式
        • 3. 设定索引方法与检索设置
      • 管理知识库
        • 维护知识库内文档
        • 通过 API 维护知识库
      • 元数据
      • 在应用内集成知识库
      • 召回测试/引用归属
      • 知识库请求频率限制
      • 连接外部知识库
      • 外部知识库 API
    • 工具
      • 快速接入工具
      • 高级接入工具
      • 工具配置
        • Google
        • Bing
        • SearchApi
        • StableDiffusion
        • Dall-e
        • Perplexity Search
        • AlphaVantage 股票分析
        • Youtube
        • SearXNG
        • Serper
        • SiliconFlow (支持 Flux 绘图)
        • ComfyUI
    • 发布
      • 发布为公开 Web 站点
        • Web 应用的设置
        • 文本生成型应用
        • 对话型应用
      • 嵌入网站
      • 基于 APIs 开发
      • 基于前端组件再开发
    • 标注
      • 日志与标注
      • 标注回复
    • 监测
      • 集成外部 Ops 工具
        • 集成 LangSmith
        • 集成 Langfuse
        • 集成 Opik
      • 数据分析
    • 扩展
      • API 扩展
        • 使用 Cloudflare Workers 部署 API Tools
        • 敏感内容审查
      • 代码扩展
        • 外部数据工具
        • 敏感内容审查
    • 协同
      • 发现
      • 邀请与管理成员
    • 管理
      • 应用管理
      • 团队成员管理
      • 个人账号管理
      • 订阅管理
      • 版本管理
  • 动手实验室
    • 初级
      • 如何搭建 AI 图片生成应用
      • AI Agent 实战:搭建个人在线旅游助手
    • 中级
      • 使用文件上传搭建文章理解助手
      • 使用知识库搭建智能客服机器人
      • ChatFlow 实战:搭建 Twitter 账号分析助手
  • 社区
    • 寻求支持
    • 成为贡献者
    • 为 Dify 文档做出贡献
  • 插件
    • 功能简介
    • 快速开始
      • 安装与使用插件
      • 插件开发
        • 初始化开发工具
        • Tool 插件
        • Model 插件
          • 创建模型供应商
          • 接入预定义模型
          • 接入自定义模型
        • Agent 策略插件
        • Extension 插件
        • Bundle 插件包
      • 插件调试
    • 插件管理
    • 接口定义
      • Manifest
      • Endpoint
      • Tool
      • Agent
      • Model
        • 模型设计规则
        • 模型接口
      • 通用规范定义
      • 持久化存储
      • 反向调用 Dify 服务
        • App
        • Model
        • Tool
        • Node
    • 最佳实践
      • 开发 Slack Bot 插件
      • Dify MCP 插件指南:一键连接 Zapier 并自动发送邮件
    • 发布插件
      • 自动发布插件
      • 发布至 Dify Marketplace
        • 插件开发者准则
        • 插件隐私政策准则
      • 发布至个人 GitHub 仓库
      • 本地发布与分享
      • 第三方签名验证
    • 常见问题
  • 研发
    • 后端
      • DifySandbox
        • 贡献指南
    • 模型接入
      • 接入 Hugging Face 上的开源模型
      • 接入 Replicate 上的开源模型
      • 接入 Xinference 部署的本地模型
      • 接入 OpenLLM 部署的本地模型
      • 接入 LocalAI 部署的本地模型
      • 接入 Ollama 部署的本地模型
      • 接入 LiteLLM 代理的模型
      • 接入 GPUStack 进行本地模型部署
      • 接入 AWS Bedrock 上的模型(DeepSeek)
    • 迁移
      • 将社区版迁移至 v1.0.0
  • 阅读更多
    • 应用案例
      • DeepSeek 与 Dify 集成指南:打造具备多轮思考的 AI 应用
      • 本地私有化部署 DeepSeek + Dify,构建你的专属私人 AI 助手
      • 如何训练出专属于“你”的问答机器人?
      • 教你十几分钟不用代码创建 Midjourney 提示词机器人
      • 构建一个 Notion AI 助手
      • 如何在几分钟内创建一个带有业务数据的官网 AI 智能客服
      • 使用全套开源工具构建 LLM 应用实战:在 Dify 调用 Baichuan 开源模型能力
      • 手把手教你把 Dify 接入微信生态
      • 使用 Dify 和 Twilio 构建 WhatsApp 机器人
      • 将 Dify 应用与钉钉机器人集成
      • 使用 Dify 和 Azure Bot Framework 构建 Microsoft Teams 机器人
      • 如何让 LLM 应用提供循序渐进的聊天体验?
      • 如何将 Dify Chatbot 集成至 Wix 网站?
      • 如何连接 AWS Bedrock 知识库?
      • 构建 Dify 应用定时任务助手
      • 如何在 Dify 内体验大模型“竞技场”?以 DeepSeek R1 VS o1 为例
      • 在 Dify 云端构建 AI Thesis Slack Bot
      • 将 Dify 快速接入 QQ、微信、飞书、钉钉、Telegram、Discord 等平台
    • 扩展阅读
      • 什么是 LLMOps?
      • 什么是数组变量?
      • 检索增强生成(RAG)
        • 混合检索
        • 重排序
        • 召回模式
      • 提示词编排
      • 如何使用 JSON Schema 让 LLM 输出遵循结构化格式的内容?
    • 常见问题
      • 本地部署
      • LLM 配置与使用
      • 插件
  • 政策
    • 开源许可证
    • 用户协议
      • 服务条款
      • 隐私政策
      • 获取合规报告
Powered by GitBook
On this page
  • 改变发生
  • 注册并生成应用
  • 准备语料
  • 开始训练
  • 训练成功
  1. 阅读更多
  2. 应用案例

如何训练出专属于“你”的问答机器人?

Previous本地私有化部署 DeepSeek + Dify,构建你的专属私人 AI 助手Next教你十几分钟不用代码创建 Midjourney 提示词机器人

Last updated 4 months ago

作者:阿乔

火枪击穿了专属于骑士阶层身披的铠甲与荣耀,武力对等才会有真正的平权。

技术平权的速度从未来得如此之快。

作为兢兢业业的 CODING DevOps 项目的技术文档工程师,在为产品贡献数百篇文档后,依然止不住要在各种用户群 / 技术支持群里为客户解答问题。即使在每条答复中贴上文档链接,依然架不住新用户反复提问。(没办法,DevOps 产品中间又包含多项子产品)

注:CODING DevOps 是腾讯云旗下的一站式研发管理平台及云原生开发工具,旨在让软件研发如同工业生产般简单高效,助力提升企业研发管理效能。

虽然由 ChatGPT 掀起 AI 革命已来,但是它并不能够回答“我的”问题,也不能回答“你的”问题。但它却可以回答“大家”的问题。

为什么?ChatGPT 本身便是由庞大的互联网语料库训练而成,并且这部分训练数据截止于 2021 年 9 月。如果你的产品在这个日期之前就有幸在互联网中占有一席之地,那恭喜你,GPT 可以大概率可以回答出你的产品是大概是干嘛用的。因为它会从你的官网收集已有的描述语料。具体到单独的产品或公司的细节时它便开始靠胡言乱语来敷衍你了。

例如这样 🔽

这里的“胡言乱语”指的是它会用其他不相关的概念进行回答,并且你并不能够预期什么问题会有什么回答,这在商业场景下十分致命。在大多数情况下,ChatGPT 对于一些带有公理性质的知识回答是没有问题的,作为一个可以日常侃大山闲聊的对象依然是合格的,可是你却看着它的强大的学习和理解能力望洋兴叹。

“你这个孙悟空什么时候才能懂我,给我想要的回答?”

这也是为什么说它能够回应大家的问题,但是却不能够回答出“我”想要的问题。

改变发生

直到,Dify 横空出世。

你可以简单地将 Dify 理解为是一个能够帮助你进行数据清理和文档训练的地方。咱们也给狗屁通(GPT)补补课,手动给它补上缺失的语料。把它从通用型聊天机器人,变成你的专业问答机器人。是的,从侃大山到对答如流,这中间的鸿沟不是一点半点,需要强大的理解、归纳总结能力。不过这正是狗屁通(GPT)的强项。

注册并生成应用

现在,我们打开 Dify 并注册一个聊天机器人,我们在这里选择“聊天助手”。

填写基础的名称和描述,选择某个 LLM 来提供对话服务。点击发布,Duang,一个聊天机器人就做好了。访问左侧的“监测”,你可以看到这个应用的在线地址。

但是,它现在也只是一个通用型聊天机器人,离商业可用的专用型问答机器人还差一个语料的距离。

准备语料

Dify 提供了一个名 “知识库” 功能,这里就是我们上传语料的地方。

现在点击“创建知识库”选项,上传你的文本内容。

目前 Dify 仅支持上传单个文件,文件格式支持 TXT、HTML、MarkDown、PDF。

是的没错,你也可以把电子书上传进来,用 AI 帮助你提炼书本内容。

在正式开始训练前,我们得先把教材准备好。好在 CODING 之前的所有文档皆以 Git 代码仓库 + Markdown 的形式进行协作,因此我只需要先把文档先拉到本地中。不过我现在碰到了第一个问题,那就是如何把仓库中的这一系列 .md 文档文件合并至同一个文件中?

不怕,让 AI 给我们写一段 python 吧。

开始训练

现在要做的事,就是上传这个文件并静待训练成果了。

数据自动分段与清洗完成后,在刚创建的应用设置中的上下文,关联这一篇文档。为了保证响应速度和成本控制,这里直接用 gpt-4o 模型。

训练成功

现在再去和这个机器人互动,看看它会回答什么?

好了,你已经是个成熟的问答机器人了,可以回答更加复杂的产品问题了。

这个问答机器人花了多久做出来,成本如何?

整理语料+训练完成控制在半个小时以内,训练成本 0.27 美元。

现在,AI 可以深入到产品内部,变成妥妥的产品专家。只要有优秀的文档,所有公司都可以打造出专用型问答机器人。

不妨也来 Dify 平台训练属于你自己的机器人。做一个考试问答机器人?出题机器人?

试着运行这个脚本,oh,输入路径后就成功生成了一篇总合文档!如果你想了解如何让 AI 给你写代码,不妨阅读。

武力对等才会有真正的平权。如果你对我的实践过程同样感兴趣,可以来体验一下我做好的机器人。访问。

《如何用狗屁通(GPT )解决一个套娃问题》
此地址