Skip to main content

🧠 知识库构建和解析

在后台知识库管理菜单中,可以进行知识库的创建和文档添加与解析,支持多种文档格式和批量处理。

操作入口

通过后台管理系统的「知识库管理」菜单进行所有知识库相关操作。

🔧 前置准备

重要提醒

在解析前,必须先进行嵌入模型的配置测试,确保模型连接正常。

模型配置说明:

  • 系统会自动读取初始用户最新的嵌入模型配置信息
  • 注意:使用的是最后添加的模型配置,而非系统模型配置中的模型信息

📚 创建知识库

操作步骤:

  1. 进入后台管理系统
  2. 选择「知识库管理」菜单
  3. 点击「创建知识库」按钮
  4. 填写知识库名称和描述
  5. 确认创建
命名建议

建议使用有意义的知识库名称,便于后续管理和识别。

🔍 模型配置测试

测试流程:

  1. 在知识库管理界面
  2. 点击「模型配置测试」
  3. 系统将自动检测嵌入模型连接状态
  4. 确保测试连接通过后,方可进行下一步文件解析
测试状态说明处理方式
连接成功模型配置正确,可以开始解析继续文档解析流程
连接失败模型配置有误或服务不可用检查模型配置或联系管理员

📄 文档解析

系统支持两种解析方式,可根据文档数量选择合适的方式:

📝 单文件解析

适用场景: 解析少量文档或单个重要文件

操作步骤:

  1. 选择目标知识库
  2. 点击「添加文档」
  3. 选择要解析的单个文件
  4. 点击「开始解析」

📦 批量文件解析

适用场景: 批量处理大量文档或整个文档库

操作步骤:

  1. 选择目标知识库
  2. 点击「批量添加文档」
  3. 选择多个文件或整个文件夹
  4. 点击「批量解析」
解析建议
  • 单文件解析:适合测试和重要文档处理
  • 批量解析:适合大规模文档库建设
  • 建议先用单文件测试解析效果,再进行批量处理

📊 解析日志

日志位置:

docker/ragflow-plus-logs/parser.log

日志用途:

  • 📈 监控解析进度
  • 🔍 排查解析问题
  • 📋 查看解析统计信息
日志查看

可通过 tail -f 命令实时查看解析日志,便于监控解析进度。

📋 支持的文件类型

文件类型格式说明
PDF 文档pdf支持文本和图像混合的 PDF
Word 文档doc, docxMicrosoft Word 文档
演示文稿pptxMicrosoft PowerPoint 演示文稿
电子表格xlsxMicrosoft Excel 电子表格
数据文件csv逗号分隔值文件
文本文件txt纯文本文件
MarkdownmdMarkdown 格式文档
图像文件jpg, png图片文件(支持 OCR 识别)
格式建议

推荐使用 PDF 和 Word 格式,这些格式的解析效果最佳。

⚠️ 注意事项

注意点说明建议
模型配置确保嵌入模型配置正确且连接测试通过解析前必须完成模型测试
解析时间大文件解析可能需要较长时间耐心等待,避免中断操作
网络连接解析过程中请勿关闭浏览器或中断网络连接保持网络稳定
结果查看解析完成后可在前台查看具体的解析块信息及时验证解析质量
重要提醒
  • 解析过程中系统会消耗较多计算资源
  • 建议在系统负载较低时进行大批量解析
  • 如遇解析失败,请检查文件格式和模型配置