🦙 从 Llama.cpp 开始
概述
Open WebUI 让连接和管理本地 Llama.cpp 服务器变得简单灵活,以运行高效的量化语言模型。无论您是自己编译 Llama.cpp 还是使用预编译二进制文件,本指南都将引导您完成以下操作:
- 设置您的 Llama.cpp 服务器
- 在本地加载大型模型
- 与 Open WebUI 集成以获得无缝界面
让我们开始吧!
步骤 1:安装 Llama.cpp
要使用 Llama.cpp 运行模型,您首先需要在本地安装 Llama.cpp 服务器。
您可以选择
- 📦 下载预构建二进制文件
- 🛠️ 或者按照官方构建说明从源代码构建
安装后,请确保 llama-server
在您的本地系统路径中可用,或记下其位置。
步骤 2:下载支持的模型
您可以使用 Llama.cpp 加载并运行各种 GGUF 格式的量化 LLM。一个令人印象深刻的例子是 UnslothAI 优化的 DeepSeek-R1 1.58 位模型。要下载此版本
- 访问 Hugging Face 上的 Unsloth DeepSeek-R1 仓库
- 下载 1.58 位量化版本——约 131GB。
或者,使用 Python 以编程方式下载
# pip install huggingface_hub hf_transfer
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF",
local_dir = "DeepSeek-R1-GGUF",
allow_patterns = ["*UD-IQ1_S*"], # Download only 1.58-bit variant
)
这会将模型文件下载到类似这样的目录中
DeepSeek-R1-GGUF/
└── DeepSeek-R1-UD-IQ1_S/
├── DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf
├── DeepSeek-R1-UD-IQ1_S-00002-of-00003.gguf
└── DeepSeek-R1-UD-IQ1_S-00003-of-00003.gguf
📍 请记下第一个 GGUF 文件的完整路径——您将在步骤 3 中用到它。
步骤 3:使用 Llama.cpp 提供模型服务
使用 llama-server 二进制文件启动模型服务器。导航到您的 llama.cpp 文件夹(例如,build/bin)并运行
./llama-server \
--model /your/full/path/to/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
--port 10000 \
--ctx-size 1024 \
--n-gpu-layers 40
🛠️ 调整参数以适应您的机器
- --model:您的 .gguf 模型文件路径
- --port:10000(或选择其他开放端口)
- --ctx-size:令牌上下文长度(如果内存允许可以增加)
- --n-gpu-layers:卸载到 GPU 的层数,以获得更快的性能
服务器运行后,它将在以下地址公开一个本地的 OpenAI 兼容 API:
http://127.0.0.1:10000
步骤 4:将 Llama.cpp 连接到 Open WebUI
要直接从 Open WebUI 控制和查询您本地运行的模型
- 在浏览器中打开 Open WebUI
- 前往 ⚙️ 管理设置 → 连接 → OpenAI 连接
- 点击 ➕ 添加连接并输入
- URL:
http://127.0.0.1:10000/v1
(如果 WebUI 在 Docker 中运行,则使用http://host.docker.internal:10000/v1
) - API 密钥:
none
(留空)
💡 保存后,Open WebUI 将开始使用您的本地 Llama.cpp 服务器作为后端!
快速提示:通过聊天界面试用模型
连接后,从 Open WebUI 聊天菜单中选择模型并开始互动!
您已准备就绪!
配置完成后,Open WebUI 可以轻松实现以下功能:
- 管理和切换 Llama.cpp 提供的本地模型
- 使用 OpenAI 兼容 API,无需密钥
- 在您的机器上直接试验 DeepSeek-R1 等大型模型!
🚀 尽情享受实验和构建的乐趣吧!