🐋 使用 Llama.cpp 运行 DeepSeek R1 Dynamic 1.58 位

在此向 UnslothAI 的出色工作致以崇高的敬意！多亏了他们的辛勤付出，我们现在可以在 Llama.cpp 上运行 完整的 DeepSeek-R1 671B 参数模型，以其动态 1.58 位量化形式（压缩到仅 131GB）！最棒的是，您不再需要为需要庞大的企业级 GPU 或服务器而绝望——在您的个人机器上运行此模型成为可能（尽管对于大多数消费级硬件来说会很慢）。

注意

Ollama 上唯一的真正 DeepSeek-R1 模型是 671B 版本，可在此处获取：https://ollama.ac.cn/library/deepseek-r1:671b。其他版本是蒸馏模型。

本指南侧重于使用与 Open WebUI 集成的 Llama.cpp 运行完整的 DeepSeek-R1 Dynamic 1.58 位量化模型。本教程将演示在 M4 Max + 128GB RAM 机器上的步骤。您可以根据自己的配置调整设置。

步骤 1：安装 Llama.cpp

您可以选择

下载预构建的二进制文件
或自行构建：请遵循此处说明：Llama.cpp 构建指南

步骤 2：下载 UnslothAI 提供的模型

前往 Unsloth 的 Hugging Face 页面并下载相应的 DeepSeek-R1 动态量化版本。本教程将使用 1.58 位 (131GB) 版本，该版本经过高度优化，但仍保持出色的功能。

提示

了解您的“工作目录”——即您的 Python 脚本或终端会话正在运行的目录。模型文件默认会下载到该目录的子文件夹中，因此请务必知道其路径！例如，如果您在 /Users/yourname/Documents/projects 中运行以下命令，您下载的模型将保存在 /Users/yourname/Documents/projects/DeepSeek-R1-GGUF 下。

要了解更多关于 UnslothAI 的开发过程以及这些动态量化版本为何如此高效，请查看他们的博客文章：UnslothAI DeepSeek R1 动态量化。

以下是如何以编程方式下载模型

# Install Hugging Face dependencies before running this:
# pip install huggingface_hub hf_transfer

from huggingface_hub import snapshot_download

snapshot_download(
    repo_id = "unsloth/DeepSeek-R1-GGUF",  # Specify the Hugging Face repo
    local_dir = "DeepSeek-R1-GGUF",         # Model will download into this directory
    allow_patterns = ["*UD-IQ1_S*"],        # Only download the 1.58-bit version
)

下载完成后，您会发现模型文件位于如下目录结构中

DeepSeek-R1-GGUF/
├── DeepSeek-R1-UD-IQ1_S/
│   ├── DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf
│   ├── DeepSeek-R1-UD-IQ1_S-00002-of-00003.gguf
│   ├── DeepSeek-R1-UD-IQ1_S-00003-of-00003.gguf

信息

🛠️ 在后续步骤中更新路径以匹配您的特定目录结构。例如，如果您的脚本在 /Users/tim/Downloads 中，则 GGUF 文件的完整路径将是
/Users/tim/Downloads/DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf.

步骤 3：确保 Open WebUI 已安装并正在运行

如果您还没有安装 Open WebUI，别担心！安装很简单。只需按照Open WebUI 文档中的说明操作即可。安装完成后，启动应用程序——我们将在稍后的步骤中连接它以与 DeepSeek-R1 模型进行交互。

步骤 4：使用 Llama.cpp 提供模型服务

模型下载完成后，下一步是使用 Llama.cpp 的服务器模式运行它。在开始之前

找到 llama-server 二进制文件。
如果您是根据步骤 1 中概述的方式从源代码构建的，则 llama-server 可执行文件将位于 llama.cpp/build/bin 中。使用 cd 命令导航到此目录
```
cd [path-to-llama-cpp]/llama.cpp/build/bin
```
将 [path-to-llama-cpp] 替换为您克隆或构建 Llama.cpp 的位置。例如
```
cd ~/Documents/workspace/llama.cpp/build/bin
```
指向您的模型文件夹。
使用步骤 2 中创建的已下载 GGUF 文件的完整路径。提供模型服务时，请指定分割 GGUF 文件的第一部分（例如，DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf）。

这是启动服务器的命令

./llama-server \
    --model /[your-directory]/DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --port 10000 \
    --ctx-size 1024 \
    --n-gpu-layers 40

提示

🔑 根据您的机器自定义参数：

--model： 将 /[your-directory]/ 替换为您在步骤 2 中下载 GGUF 文件的路径。
--port： 服务器默认端口是 8080，您可以根据端口可用性随意更改。
--ctx-size： 决定上下文长度（token 数量）。如果您的硬件允许，可以增加它，但要小心 RAM/VRAM 使用量的增加。
--n-gpu-layers： 设置要卸载到 GPU 以加快推理速度的层数。具体数量取决于您 GPU 的内存容量——请参考 Unsloth 的表格以获取具体建议。

例如，如果您的模型下载到 /Users/tim/Documents/workspace，您的命令将如下所示

./llama-server \
    --model /Users/tim/Documents/workspace/DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --port 10000 \
    --ctx-size 1024 \
    --n-gpu-layers 40

服务器启动后，它将托管一个本地 OpenAI 兼容的 API 端点，地址为

http://127.0.0.1:10000

信息

🖥️ Llama.cpp 服务器正在运行

Server Screenshot

运行命令后，您应该会看到一条消息，确认服务器已激活并正在监听端口 10000。

请务必保持此终端会话运行，因为它为所有后续步骤提供模型服务。

步骤 5：将 Llama.cpp 连接到 Open WebUI

在 Open WebUI 中前往 Admin Settings（管理员设置）。
导航到 Connections > OpenAI Connections（连接 > OpenAI 连接）。
为新连接添加以下详细信息
- URL：http://127.0.0.1:10000/v1（或者在 Docker 中运行 Open WebUI 时为 http://host.docker.internal:10000/v1）
- API Key：none

信息

🖥️ 在 Open WebUI 中添加连接

Connection Screenshot

运行命令后，您应该会看到一条消息，确认服务器已激活并正在监听端口 10000。

连接保存后，您就可以直接从 Open WebUI 查询 DeepSeek-R1 了！🎉

示例：生成响应

您现在可以使用 Open WebUI 的聊天界面与 DeepSeek-R1 Dynamic 1.58 位模型进行交互。

Response Screenshot

注意事项

性能
在个人硬件上运行像 DeepSeek-R1 这样庞大的 131GB 模型会很慢。即使使用我们的 M4 Max (128GB RAM)，推理速度也只是中等。但它能够运行本身就证明了 UnslothAI 的优化效果。
VRAM/内存要求
确保有足够的 VRAM 和系统 RAM 以获得最佳性能。对于低端 GPU 或纯 CPU 设置，预计速度会较慢（但仍然可以做到！）。

感谢 UnslothAI 和 Llama.cpp，运行最大的开源推理模型之一 DeepSeek-R1（1.58 位版本）终于对个人用户开放。虽然在消费级硬件上运行此类模型具有挑战性，但无需大规模计算基础设施即可实现这一目标是一个重要的技术里程碑。

⭐ 非常感谢社区推动开放 AI 研究的边界。

祝您实验愉快！🚀

步骤 1：安装 Llama.cpp​

步骤 2：下载 UnslothAI 提供的模型​

步骤 3：确保 Open WebUI 已安装并正在运行​

步骤 4：使用 Llama.cpp 提供模型服务​

步骤 5：将 Llama.cpp 连接到 Open WebUI​

示例：生成响应​

注意事项​