Jan 14, 2026

チュートリアル：コンシューマGPUでDeepSeek Coder V3をセルフホスティング

RTX 5090でローカル実行し、GPT-5レベルのコーディング支援を無料で入手。

DeepSeek Coder V3はリーダーボードを打ち破りました。 HumanEvalでGPT-4oとClaude 3.5 Sonnetを上回り、しかも完全にオープンウェイトです。実行方法はこちら。

なぜセルフホスト？

セキュリティ: プロプライエタリコードがネットワークから出ない。
コスト: 一度きりのハードウェアコスト vs $20/月/ユーザー。
コンテキスト: 特定のコードベースでファインチューニング可能。

ハードウェア要件

最小: NVIDIA RTX 3090/4090（24GB VRAM）で33Bモデル（4ビット量子化）。
推奨: NVIDIA RTX 5090（32GB VRAM）で33Bモデルの高精度。
CPU: ほぼ無関係、システムRAMのみ必要（64GB推奨）。

ステップ1：LM StudioまたはOllamaをインストール

初心者には、LM Studioが良いGUIを提供。

Linux/Windows用のLM Studioをダウンロード。
「DeepSeek-Coder-V3-33B-GGUF」を検索。
Q4_K_M（4ビットミディアム）量子化ファイルをダウンロード（約20GB）。

ステップ2：VS Code統合

別ウィンドウでチャットしたくない。エディタ内で使いたい。

VS Codeで**「Continue」**拡張機能をインストール。
初期設定：

"models": [
  {
    "title": "DeepSeek Local",
    "provider": "lmstudio",
    "model": "deepseek-coder-v3",
    "apiBase": "http://localhost:1234/v1"
  }
]

ステップ3：コンテキスト認識

DeepSeekは巨大な128kコンテキストウィンドウをサポート。 Continue拡張機能で、srcフォルダ全体をコンテキストに追加。 注意：これはVRAMを消費します。控えめに使用。

パフォーマンスチューニング

GPUオフロード: 「Max」に設定（すべてのレイヤーがGPU上）。CPU/GPU間で分割すると、速度が50トークン/秒から5トークン/秒に低下。
Flash Attention: バックエンドがFlash Attention 2をサポートしていることを確認し、2倍の推論速度を実現。

結論

ハイエンドゲーミングPCの価格で、地下室に住んでコードを安全に読む世界クラスのコーディングアシスタントが手に入ります。