DeepSeek V3/R1 本地部署实战:在你的电脑上运行开源最强模型

无需昂贵的 H100 GPU,教你用 Ollama 和 vLLM 在本地部署 DeepSeek V3 和推理模型 R1。

2026 年初,AI 圈被一个名字刷屏了:DeepSeek。

这家来自中国的 AI 实验室发布了 DeepSeek-V3DeepSeek-R1,不仅在各项基准测试中硬刚 GPT-4 和 Claude 3.5,更重要的是——它是完全开源的。DeepSeek-R1 更是凭借其卓越的推理能力(Reasoning),让许多复杂的数学和编程问题迎刃而解。

今天,我们不仅仅是聊它,更要教你在自己的机器上把它们跑起来。

为什么要在本地跑 DeepSeek?

  1. 隐私:你的代码、你的文档,完全不上云。
  2. 延迟:没有网络延迟,本地推理速度取决于你的显卡。
  3. 无审查:本地模型(通常)没有云端 API 那么严格的强制审查。
  4. 免费:除了电费,没有任何 Token 费用。

硬件要求

DeepSeek 的开源版本提供了多种尺寸的蒸馏模型(Distilled Models),让普通显卡也能跑得动。

  • DeepSeek-R1-Distill-Llama-8B
    • 显存需求:约 6GB (4-bit 量化)
    • 推荐显卡:RTX 3060 / 4060
  • DeepSeek-R1-Distill-Qwen-32B
    • 显存需求:约 20GB (4-bit 量化)
    • 推荐显卡:RTX 3090 / 4090 或 Mac M2/M3 Max (32GB+)
  • DeepSeek-V3 (671B MoE)
    • 显存需求:巨大(多卡 H800 或大内存 Mac Studio),普通玩家建议使用 API 或蒸馏版。

方法一:使用 Ollama (最简单,推荐)

Ollama 是目前最流行的本地 LLM 运行工具。

1. 安装 Ollama

前往 ollama.com 下载并安装。

2. 运行 DeepSeek 模型

打开终端,根据你的配置选择命令:

运行 8B 版本 (适合大多数电脑):

ollama run deepseek-r1:8b

运行 32B 版本 (适合 24G 显存或 M芯片 Mac):

ollama run deepseek-r1:32b

运行 70B 版本 (适合双卡 3090/4090):

ollama run deepseek-r1:70b

3. 测试推理能力

DeepSeek-R1 的特点是它会 “思考”(Chain of Thought)。试着问它一个逻辑题:

“一斤棉花和一斤铁,哪个体积大?请一步步推理。”

你会看到它先输出一段 <think> 标签包裹的内容,详细展示它的思考过程,最后给出结论。

方法二:使用 vLLM (高性能部署)

如果你是开发者,想部署一个高并发的 API 服务,vLLM 是更好的选择。

1. 安装 vLLM

pip install vllm

2. 启动服务

python -m vllm.entrypoints.openai.api_server \
  --model deepseek-ai/DeepSeek-R1-Distill-Llama-8B \
  --trust-remote-code \
  --port 8000

3. 调用 API

现在你的本地机器就变成了一个兼容 OpenAI 的 API 服务器:

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="empty")

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
    messages=[{"role": "user", "content": "写一个 Python 贪吃蛇游戏"}]
)
print(response.choices[0].message.content)

DeepSeek vs 其他模型

模型擅长领域速度硬件需求
DeepSeek-V3通用对话、多语言快 (MoE)
DeepSeek-R1数学、编程、逻辑推理慢 (思考过程长)
Llama 3通用对话、文学创作

总结

DeepSeek 的出现打破了闭源模型的垄断。R1 展现出的推理能力证明了通过强化学习(RL)可以极大地提升小模型的智力上限。现在,就在你的终端里,运行这个来自未来的 AI 吧。


DeepSeek R1 的思考过程及其展现出的透明度,是迈向可解释 AI 的重要一步。