DeepSeek V3/R1 本地部署实战：在你的电脑上运行开源最强模型

2026 年初，AI 圈被一个名字刷屏了：DeepSeek。

这家来自中国的 AI 实验室发布了 DeepSeek-V3 和 DeepSeek-R1，不仅在各项基准测试中硬刚 GPT-4 和 Claude 3.5，更重要的是——它是完全开源的。DeepSeek-R1 更是凭借其卓越的推理能力（Reasoning），让许多复杂的数学和编程问题迎刃而解。

今天，我们不仅仅是聊它，更要教你在自己的机器上把它们跑起来。

为什么要在本地跑 DeepSeek？

隐私：你的代码、你的文档，完全不上云。
延迟：没有网络延迟，本地推理速度取决于你的显卡。
无审查：本地模型（通常）没有云端 API 那么严格的强制审查。
免费：除了电费，没有任何 Token 费用。

硬件要求

DeepSeek 的开源版本提供了多种尺寸的蒸馏模型（Distilled Models），让普通显卡也能跑得动。

DeepSeek-R1-Distill-Llama-8B：
- 显存需求：约 6GB (4-bit 量化)
- 推荐显卡：RTX 3060 / 4060
DeepSeek-R1-Distill-Qwen-32B：
- 显存需求：约 20GB (4-bit 量化)
- 推荐显卡：RTX 3090 / 4090 或 Mac M2/M3 Max (32GB+)
DeepSeek-V3 (671B MoE)：
- 显存需求：巨大（多卡 H800 或大内存 Mac Studio），普通玩家建议使用 API 或蒸馏版。

方法一：使用 Ollama (最简单，推荐)

Ollama 是目前最流行的本地 LLM 运行工具。

1. 安装 Ollama

前往 ollama.com 下载并安装。

2. 运行 DeepSeek 模型

打开终端，根据你的配置选择命令：

运行 8B 版本 (适合大多数电脑):

ollama run deepseek-r1:8b

运行 32B 版本 (适合 24G 显存或 M芯片 Mac):

ollama run deepseek-r1:32b

运行 70B 版本 (适合双卡 3090/4090):

ollama run deepseek-r1:70b

3. 测试推理能力

DeepSeek-R1 的特点是它会 “思考”（Chain of Thought）。试着问它一个逻辑题：

“一斤棉花和一斤铁，哪个体积大？请一步步推理。”

你会看到它先输出一段 <think> 标签包裹的内容，详细展示它的思考过程，最后给出结论。

方法二：使用 vLLM (高性能部署)

如果你是开发者，想部署一个高并发的 API 服务，vLLM 是更好的选择。

1. 安装 vLLM

pip install vllm

2. 启动服务

python -m vllm.entrypoints.openai.api_server \
  --model deepseek-ai/DeepSeek-R1-Distill-Llama-8B \
  --trust-remote-code \
  --port 8000

3. 调用 API

现在你的本地机器就变成了一个兼容 OpenAI 的 API 服务器：

from openai import OpenAI

client = OpenAI(base_url="http://localhost:8000/v1", api_key="empty")

response = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1-Distill-Llama-8B",
    messages=[{"role": "user", "content": "写一个 Python 贪吃蛇游戏"}]
)
print(response.choices[0].message.content)

DeepSeek vs 其他模型

模型	擅长领域	速度	硬件需求
DeepSeek-V3	通用对话、多语言	快 (MoE)	高
DeepSeek-R1	数学、编程、逻辑推理	慢 (思考过程长)	中
Llama 3	通用对话、文学创作	中	低

总结

DeepSeek 的出现打破了闭源模型的垄断。R1 展现出的推理能力证明了通过强化学习（RL）可以极大地提升小模型的智力上限。现在，就在你的终端里，运行这个来自未来的 AI 吧。

DeepSeek R1 的思考过程及其展现出的透明度，是迈向可解释 AI 的重要一步。