チュートリアル:コンシューマGPUでDeepSeek Coder V3をセルフホスティング
RTX 5090でローカル実行し、GPT-5レベルのコーディング支援を無料で入手。
DeepSeek Coder V3はリーダーボードを打ち破りました。 HumanEvalでGPT-4oとClaude 3.5 Sonnetを上回り、しかも完全にオープンウェイトです。実行方法はこちら。
なぜセルフホスト?
- セキュリティ: プロプライエタリコードがネットワークから出ない。
- コスト: 一度きりのハードウェアコスト vs $20/月/ユーザー。
- コンテキスト: 特定のコードベースでファインチューニング可能。
ハードウェア要件
- 最小: NVIDIA RTX 3090/4090(24GB VRAM)で33Bモデル(4ビット量子化)。
- 推奨: NVIDIA RTX 5090(32GB VRAM)で33Bモデルの高精度。
- CPU: ほぼ無関係、システムRAMのみ必要(64GB推奨)。
ステップ1:LM StudioまたはOllamaをインストール
初心者には、LM Studioが良いGUIを提供。
- Linux/Windows用のLM Studioをダウンロード。
- 「DeepSeek-Coder-V3-33B-GGUF」を検索。
Q4_K_M(4ビットミディアム)量子化ファイルをダウンロード(約20GB)。
ステップ2:VS Code統合
別ウィンドウでチャットしたくない。エディタ内で使いたい。
- VS Codeで**「Continue」**拡張機能をインストール。
- 初期設定:
"models": [
{
"title": "DeepSeek Local",
"provider": "lmstudio",
"model": "deepseek-coder-v3",
"apiBase": "http://localhost:1234/v1"
}
]
ステップ3:コンテキスト認識
DeepSeekは巨大な128kコンテキストウィンドウをサポート。
Continue拡張機能で、srcフォルダ全体をコンテキストに追加。
注意:これはVRAMを消費します。控えめに使用。
パフォーマンスチューニング
- GPUオフロード: 「Max」に設定(すべてのレイヤーがGPU上)。CPU/GPU間で分割すると、速度が50トークン/秒から5トークン/秒に低下。
- Flash Attention: バックエンドがFlash Attention 2をサポートしていることを確認し、2倍の推論速度を実現。
結論
ハイエンドゲーミングPCの価格で、地下室に住んでコードを安全に読む世界クラスのコーディングアシスタントが手に入ります。