Whisper.cpp 实战：CPU 也能跑的极致语音识别

如果说 OpenAI Whisper 是语音识别领域的皇冠，那么 Whisper.cpp 就是把皇冠上的宝石扣下来，镶嵌到了每一个普通人的钥匙扣上。

Whisper 的官方实现依赖 PyTorch，极其吃显存且运行缓慢。而 Georgi Gerganov 大神开发的 whisper.cpp 完全用 C/C++ 重写，不依赖任何第三方库，甚至可以在 iPhone 和树莓派上流畅运行。

为什么选择 Whisper.cpp？

git clone https://github.com/ggerganov/whisper.cpp.git
cd whisper.cpp

Whisper.cpp 使用量化后的 ggml 模型格式。脚本会自动帮你转换和下载。

# 下载 base 英文模型 (约 140MB)
bash ./models/download-ggml-model.sh base.en

# 或者下载多语言版本 (支持中文)
bash ./models/download-ggml-model.sh small

make

没错，就是这么简单。编译完成后，你会在目录下看到一个 main 可执行文件。

准备一个包含语音的 test.wav 文件（必须是 16kHz 采样率）。

# 运行转录
./main -m models/ggml-small.bin -f test.wav -l zh

参数详解：

Whisper.cpp 提供了一个 stream 工具，可以调用麦克风进行实时听写。

# 编译 stream 工具
make stream

# 启动实时听写
./stream -m models/ggml-small.bin -l zh --step 500 --length 5000

现在，对着麦克风说话，终端里就会实时蹦出文字！

Whisper.cpp 的核心魔法在于 GGML 张量库（也是 llama.cpp 的核心）。

Whisper.cpp 重新定义了”端侧 AI”的可能性。它告诉我们：并不是所有 AI 都需要昂贵的 H100，优秀的代码优化同样是生产力。