跳到主要内容

Open WebUI 中的文档提取

Open WebUI 提供了强大的文档提取功能,使您能够在 RAG(检索增强生成)工作流程中处理和分析各种类型的文档。文档提取对于将非结构化文档内容转换为可被语言模型有效使用的结构化数据至关重要。

什么是文档提取?

文档提取是指从各种文件格式中自动识别和提取文本及数据的过程,其中包括

  • PDF(包括基于文本和扫描的)
  • 包含文本的图像
  • 手写文档
  • 以及更多

通过适当的文档提取,Open WebUI 可以帮助您

  • 将基于图像的文档转换为可搜索文本
  • 保留文档结构和布局信息
  • 以结构化格式提取数据以进行进一步处理
  • 支持多语言内容识别

可用提取方法

Open WebUI 支持多种文档提取引擎,以适应不同的需求和文档类型。每种提取方法都有其优点,适用于不同的场景。

查阅每种可用提取方法的文档,了解如何在您的 Open WebUI 实例中进行设置和有效使用。