チュートリアル:コンシューマGPUでDeepSeek Coder V3をセルフホスティング

RTX 5090でローカル実行し、GPT-5レベルのコーディング支援を無料で入手。

DeepSeek Coder V3はリーダーボードを打ち破りました。 HumanEvalでGPT-4oとClaude 3.5 Sonnetを上回り、しかも完全にオープンウェイトです。実行方法はこちら。

なぜセルフホスト?

  1. セキュリティ: プロプライエタリコードがネットワークから出ない。
  2. コスト: 一度きりのハードウェアコスト vs $20/月/ユーザー。
  3. コンテキスト: 特定のコードベースでファインチューニング可能。

ハードウェア要件

  • 最小: NVIDIA RTX 3090/4090(24GB VRAM)で33Bモデル(4ビット量子化)。
  • 推奨: NVIDIA RTX 5090(32GB VRAM)で33Bモデルの高精度。
  • CPU: ほぼ無関係、システムRAMのみ必要(64GB推奨)。

ステップ1:LM StudioまたはOllamaをインストール

初心者には、LM Studioが良いGUIを提供。

  1. Linux/Windows用のLM Studioをダウンロード。
  2. 「DeepSeek-Coder-V3-33B-GGUF」を検索。
  3. Q4_K_M(4ビットミディアム)量子化ファイルをダウンロード(約20GB)。

ステップ2:VS Code統合

別ウィンドウでチャットしたくない。エディタ内で使いたい。

  1. VS Codeで**「Continue」**拡張機能をインストール。
  2. 初期設定:
"models": [
  {
    "title": "DeepSeek Local",
    "provider": "lmstudio",
    "model": "deepseek-coder-v3",
    "apiBase": "http://localhost:1234/v1"
  }
]

ステップ3:コンテキスト認識

DeepSeekは巨大な128kコンテキストウィンドウをサポート。 Continue拡張機能で、srcフォルダ全体をコンテキストに追加。 注意:これはVRAMを消費します。控えめに使用。

パフォーマンスチューニング

  • GPUオフロード: 「Max」に設定(すべてのレイヤーがGPU上)。CPU/GPU間で分割すると、速度が50トークン/秒から5トークン/秒に低下。
  • Flash Attention: バックエンドがFlash Attention 2をサポートしていることを確認し、2倍の推論速度を実現。

結論

ハイエンドゲーミングPCの価格で、地下室に住んでコードを安全に読む世界クラスのコーディングアシスタントが手に入ります。