跳到主要内容

🦙开始使用 Llama.cpp

概述

Open WebUI 使连接和管理本地 Llama.cpp 服务器变得简单灵活,以便运行高效的量化语言模型。无论您是自行编译 Llama.cpp 还是使用预编译的二进制文件,本指南都将引导您完成以下步骤:

  • 设置您的 Llama.cpp 服务器
  • 在本地加载大型模型
  • 与 Open WebUI 集成,实现无缝界面

让我们开始吧!


步骤 1:安装 Llama.cpp

要使用 Llama.cpp 运行模型,您首先需要在本地安装 Llama.cpp 服务器。

您可以选择

安装后,请确保 llama-server 在您的本地系统路径中可用,或记下其位置。


步骤 2:下载支持的模型

您可以使用 Llama.cpp 加载和运行各种 GGUF 格式的量化 LLM。一个令人印象深刻的例子是由 UnslothAI 优化的 DeepSeek-R1 1.58-bit 模型。要下载此版本

  1. 访问 Hugging Face 上的 Unsloth DeepSeek-R1 仓库
  2. 下载 1.58-bit 量化版本 – 大约 131GB。

或者,使用 Python 以编程方式下载

# pip install huggingface_hub hf_transfer

from huggingface_hub import snapshot_download

snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF",
local_dir = "DeepSeek-R1-GGUF",
allow_patterns = ["*UD-IQ1_S*"], # Download only 1.58-bit variant
)

这将把模型文件下载到类似这样的目录中

DeepSeek-R1-GGUF/
└── DeepSeek-R1-UD-IQ1_S/
├── DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf
├── DeepSeek-R1-UD-IQ1_S-00002-of-00003.gguf
└── DeepSeek-R1-UD-IQ1_S-00003-of-00003.gguf

📍 记下第一个 GGUF 文件的完整路径 — 在步骤 3 中您会用到它。


步骤 3:使用 Llama.cpp 提供模型服务

使用 llama-server 二进制文件启动模型服务器。导航到您的 llama.cpp 文件夹(例如,build/bin)并运行

./llama-server \
--model /your/full/path/to/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
--port 10000 \
--ctx-size 1024 \
--n-gpu-layers 40

🛠️ 根据您的机器调整参数

  • --model: 您的 .gguf 模型文件路径
  • --port: 10000(或选择其他可用端口)
  • --ctx-size: 令牌上下文长度(如果 RAM 允许可以增加)
  • --n-gpu-layers: 卸载到 GPU 的层数,以提高性能

服务器运行后,将在以下地址暴露一个本地 OpenAI 兼容 API

http://127.0.0.1:10000

步骤 4:将 Llama.cpp 连接到 Open WebUI

要直接从 Open WebUI 控制和查询您本地运行的模型

  1. 在浏览器中打开 Open WebUI
  2. 前往 ⚙️ 管理设置 → 连接 → OpenAI 连接
  3. 点击 ➕ 添加连接 并输入
  • URL: http://127.0.0.1:10000/v1
    (如果在 Docker 中运行 WebUI,则使用 http://host.docker.internal:10000/v1)
  • API 密钥: none(留空)

💡 保存后,Open WebUI 将开始使用您的本地 Llama.cpp 服务器作为后端!

Llama.cpp Connection in Open WebUI


快速提示:通过聊天界面试用模型

连接后,从 Open WebUI 聊天菜单中选择模型并开始互动!

Model Chat Preview


您已准备就绪!

配置完成后,Open WebUI 使您能够轻松地

  • 管理和切换由 Llama.cpp 提供的本地模型
  • 使用无需密钥的 OpenAI 兼容 API
  • 直接在您的机器上试验像 DeepSeek-R1 这样的大型模型!

🚀 尽情享受实验和构建的乐趣!