🐤 Docling 文档提取
本教程由社区贡献,不获得 Open WebUI 团队的支持。它仅作为演示,说明如何根据您的特定用例定制 Open WebUI。想要贡献?请查看贡献教程。
🐤 Docling 文档提取
本文档提供了将 Docling 与 Open WebUI 集成的分步指南。Docling 是一个文档处理库,旨在将各种文件格式(包括 PDF、Word 文档、电子表格、HTML 和图像)转换为结构化数据,如 JSON 或 Markdown。凭借内置的布局检测、表格解析和语言感知处理支持,Docling 通过统一且可扩展的界面,简化了用于搜索、摘要和检索增强生成等 AI 应用的文档准备工作。
先决条件
- Open WebUI 实例
- 系统上已安装 Docker
- 已为 Open WebUI 设置 Docker 网络
集成步骤
步骤 1:运行 Docling-Serve 的 Docker 命令
docker run -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve
*支持 GPU
docker run --gpus all -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve-cu124
步骤 2:配置 Open WebUI 以使用 Docling
- 登录到您的 Open WebUI 实例。
- 导航到
Admin Panel
设置菜单。 - 点击
Settings
。 - 点击
Documents
选项卡。 - 将
Default
内容提取引擎下拉菜单更改为Docling
。 - 将上下文提取引擎 URL 更新为
http://host.docker.internal:5001
。 - 保存更改。
(可选) 步骤 3:配置 Docling 的图片描述功能
-
在
Documents
选项卡上 -
激活
Describe Pictures in Documents
按钮。 -
在下方,选择描述模式:
local
或API
local
:视觉模型将在 Docling 自身的上下文中运行API
:Docling 将调用外部服务/容器(例如 Ollama)
-
填写一个 对象值,具体描述请参见 https://github.com/docling-project/docling-serve/blob/main/docs/usage.md#picture-description-options
-
保存更改。
确保对象值是有效的 JSON!以下是工作示例:
{
"repo_id": "HuggingFaceTB/SmolVLM-256M-Instruct",
"generation_config": {
"max_new_tokens": 200,
"do_sample": false
},
"prompt": "Describe this image in a few sentences."
}
{
"url": "https://:11434/v1/chat/completions",
"params": {
"model": "qwen2.5vl:7b-q4_K_M"
},
"timeout": 60,
"prompt": "Describe this image in great details. "
}
验证 Docker 中的 Docling
要验证 Docling 在 Docker 环境中是否正常工作,您可以按照以下步骤操作
1. 启动 Docling Docker 容器
首先,确保 Docling Docker 容器正在运行。您可以使用以下命令启动它
docker run -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve
此命令启动 Docling 容器并将容器的 5001 端口映射到您本地机器的 5001 端口。
2. 验证服务器是否正在运行
- 前往
http://127.0.0.1:5001/ui/
- 该 URL 应引导至一个使用 Docling 的 UI
3. 验证集成
- 您可以尝试通过 UI 上传一些文件,它应该以 MD 格式或您想要的格式返回输出
结论
将 Docling 与 Open WebUI 集成是增强文档处理和内容提取能力的简单而有效的方法。通过遵循本指南中的步骤,您可以将 Docling 设置为默认提取引擎,并验证它在 Docker 环境中是否顺利运行。配置完成后,Docling 能够进行强大的、与格式无关的文档解析,以支持 Open WebUI 中更高级的 AI 功能。