Whisper.cpp チュートリアル：CPUで動く究極の音声認識

OpenAI Whisperが音声認識の王冠の宝石なら、Whisper.cppはその宝石を取り外してみんなのキーホルダーにセットしたものです。

Whisperの公式実装はPyTorchに依存しており—非常にVRAMを消費し遅いです。Georgi Gerganovのwhisper.cppは完全にC/C++で書き直され、依存関係ゼロで、iPhoneやRaspberry Piでもスムーズに動作します。

なぜWhisper.cppを選ぶのか？

git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp

Whisper.cppは量子化されたggmlモデル形式を使用。スクリプトが自動的にダウンロードと変換を行います。

# 英語ベースモデルをダウンロード（~140MB）
bash ./models/download-ggml-model.sh base.en

# または多言語版をダウンロード（日本語対応）
bash ./models/download-ggml-model.sh small

make

以上です。コンパイル後、ディレクトリにmain実行ファイルが表示されます。

音声を含むtest.wavファイルを準備（16kHzサンプルレート必須）。

# 文字起こしを実行
./main -m models/ggml-small.bin -f test.wav -l ja

パラメータ説明:

Whisper.cppはマイクを使用したリアルタイム音声入力用のstreamツールを提供します。

# streamツールをコンパイル
make stream

# リアルタイム音声入力を開始
./stream -m models/ggml-small.bin -l ja --step 500 --length 5000

マイクに向かって話すと、テキストがリアルタイムでターミナルに表示されます！

Whisper.cppの魔法はGGMLテンソルライブラリ（llama.cppのコアでもある）にあります。

Whisper.cppは「エッジAI」の可能性を再定義しました。すべてのAIに高価なH100が必要なわけではない—優れたコード最適化も同様に生産的であることを示しています。