🧠 知识库构建和解析
在后台知识库管理菜单中,可以进行知识库的创建和文档添加与解析,支持多种文档格式和批量处理。
操作入口
通过后台管理系统的「知识库管理」菜单进行所有知识库相关操作。
🔧 前置准备
重要提醒
在解析前,必须先进行嵌入模型的配置测试,确保模型连接正常。
模型配置说明:
- 系统会自动读取初始用户最新的嵌入模型配置信息
- 注意:使用的是最后添加的模型配置,而非系统模型配置中的模型信息
📚 创建知识库
操作步骤:
- 进入后台管理系统
- 选择「知识库管理」菜单
- 点击「创建知识库」按钮
- 填写知识库名称和描述
- 确认创建
命名建议
建议使用有意义的知识库名称,便于后续管理和识别。
🔍 模型配置测试
测试流程:
- 在知识库管理界面
- 点击「模型配置测试」
- 系统将自动检测嵌入模型连接状态
- 确保测试连接通过后,方可进行下一步文件解析
测试状态 | 说明 | 处理方式 |
---|---|---|
✅ 连接成功 | 模型配置正确,可以开始解析 | 继续文档解析流程 |
❌ 连接失败 | 模型配置有误或服务不可用 | 检查模型配置或联系管理员 |
📄 文档解析
系统支持两种解析方式,可根据文档数量选择合适的方式:
📝 单文件解析
适用场景: 解析少量文档或单个重要文件
操作步骤:
- 选择目标知识库
- 点击「添加文档」
- 选择要解析的单个文件
- 点击「开始解析」
📦 批量文件解析
适用场景: 批量处理大量文档或整个文档库
操作步骤:
- 选择目标知识库
- 点击「批量添加文档」
- 选择多个文件或整个文件夹
- 点击「批量解析」
解析建议
- 单文件解析:适合测试和重要文档处理
- 批量解析:适合大规模文档库建设
- 建议先用单文件测试解析效果,再进行批量处理
📊 解析日志
日志位置:
docker/ragflow-plus-logs/parser.log
日志用途:
- 📈 监控解析进度
- 🔍 排查解析问题
- 📋 查看解析统计信息
日志查看
可通过 tail -f
命令实时查看解析日志,便于监控解析进度。
📋 支持的文件类型
文件类型 | 格式 | 说明 |
---|---|---|
PDF 文档 | 支持文本和图像混合的 PDF | |
Word 文档 | doc, docx | Microsoft Word 文档 |
演示文稿 | pptx | Microsoft PowerPoint 演示文稿 |
电子表格 | xlsx | Microsoft Excel 电子表格 |
数据文件 | csv | 逗号分隔值文件 |
文本文件 | txt | 纯文本文件 |
Markdown | md | Markdown 格式文档 |
图像文件 | jpg, png | 图片文件(支持 OCR 识别) |
格式建议
推荐使用 PDF 和 Word 格式,这些格式的解析效果最佳。
⚠️ 注意事项
注意点 | 说明 | 建议 |
---|---|---|
模型配置 | 确保嵌入模型配置正确且连接测试通过 | 解析前必须完成模型测试 |
解析时间 | 大文件解析可能需要较长时间 | 耐心等待,避免中断操作 |
网络连接 | 解析过程中请勿关闭浏览器或中断网络连接 | 保持网络稳定 |
结果查看 | 解析完成后可在前台查看具体的解析块信息 | 及时验证解析质量 |
重要提醒
- 解析过程中系统会消耗较多计算资源
- 建议在系统负载较低时进行大批量解析
- 如遇解析失败,请检查文件格式和模型配置