🐤 Docling 文档提取

警告

本教程由社区贡献，不获得 Open WebUI 团队的支持。它仅作为演示，说明如何根据您的特定用例定制 Open WebUI。想要贡献？请查看贡献教程。

🐤 Docling 文档提取

本文档提供了将 Docling 与 Open WebUI 集成的分步指南。Docling 是一个文档处理库，旨在将各种文件格式（包括 PDF、Word 文档、电子表格、HTML 和图像）转换为结构化数据，如 JSON 或 Markdown。凭借内置的布局检测、表格解析和语言感知处理支持，Docling 通过统一且可扩展的界面，简化了用于搜索、摘要和检索增强生成等 AI 应用的文档准备工作。

先决条件

Open WebUI 实例
系统上已安装 Docker
已为 Open WebUI 设置 Docker 网络

集成步骤

步骤 1：运行 Docling-Serve 的 Docker 命令

docker run -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve

*支持 GPU

docker run --gpus all -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve-cu124

步骤 2：配置 Open WebUI 以使用 Docling

登录到您的 Open WebUI 实例。
导航到 Admin Panel 设置菜单。
点击 Settings。
点击 Documents 选项卡。
将 Default 内容提取引擎下拉菜单更改为 Docling。
将上下文提取引擎 URL 更新为 http://host.docker.internal:5001。
保存更改。

(可选) 步骤 3：配置 Docling 的图片描述功能

在 Documents 选项卡上
激活 Describe Pictures in Documents 按钮。
在下方，选择描述模式：local 或 API
- local：视觉模型将在 Docling 自身的上下文中运行
- API：Docling 将调用外部服务/容器（例如 Ollama）
填写一个 对象值，具体描述请参见 https://github.com/docling-project/docling-serve/blob/main/docs/usage.md#picture-description-options
保存更改。

确保对象值是有效的 JSON！以下是工作示例：

{
  "repo_id": "HuggingFaceTB/SmolVLM-256M-Instruct",
  "generation_config": {
    "max_new_tokens": 200,
    "do_sample": false
  },
  "prompt": "Describe this image in a few sentences."
}

{
  "url": "https://:11434/v1/chat/completions",
  "params": {
    "model": "qwen2.5vl:7b-q4_K_M"
  },
  "timeout": 60,
  "prompt": "Describe this image in great details. "
}

验证 Docker 中的 Docling

要验证 Docling 在 Docker 环境中是否正常工作，您可以按照以下步骤操作

1. 启动 Docling Docker 容器

首先，确保 Docling Docker 容器正在运行。您可以使用以下命令启动它

docker run -p 5001:5001 -e DOCLING_SERVE_ENABLE_UI=true quay.io/docling-project/docling-serve

此命令启动 Docling 容器并将容器的 5001 端口映射到您本地机器的 5001 端口。

2. 验证服务器是否正在运行

前往 http://127.0.0.1:5001/ui/
该 URL 应引导至一个使用 Docling 的 UI

3. 验证集成

您可以尝试通过 UI 上传一些文件，它应该以 MD 格式或您想要的格式返回输出

结论

将 Docling 与 Open WebUI 集成是增强文档处理和内容提取能力的简单而有效的方法。通过遵循本指南中的步骤，您可以将 Docling 设置为默认提取引擎，并验证它在 Docker 环境中是否顺利运行。配置完成后，Docling 能够进行强大的、与格式无关的文档解析，以支持 Open WebUI 中更高级的 AI 功能。