Como rodar Whisper no Mac M1/M2/M3/M4
Transcrição de áudio 100% local, grátis e rápida no Apple Silicon
Preparei isso pra você, @voce!
Espero que esse conteúdo te ajude, você! Se tiver dúvidas, me chama no X.
Ouça a narração completa
Essa pergunta tá aparecendo muito hoje — como rodar o Whisper no Mac com chip M1, M2, M3 ou M4. Preparei esse guia completo antes que você precisasse perguntar. 🎖️
O que é o Whisper?
O Whisper é o modelo de transcrição de áudio da OpenAI. Ele converte fala em texto com uma precisão absurda, suporta português e dezenas de idiomas, e o melhor: a versão open source (whisper.cpp) roda 100% no seu Mac, sem internet, sem API, sem custo.
🍎 No Apple Silicon (M1/M2/M3/M4), o whisper.cpp usa o chip Metal da GPU nativamente — fica até 10x mais rápido do que rodar no CPU.
Método 1: Homebrew (recomendado — 2 comandos)
A forma mais rápida de instalar. Abra o Terminal e rode:
brew install whisper-cpp
Depois baixe um modelo. Para português, o 'medium' tem ótima qualidade:
mkdir -p ~/.cache/whisper
curl -L -o ~/.cache/whisper/ggml-medium.bin https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-medium.bin
Pronto. Para transcrever:
whisper-cpp -m ~/.cache/whisper/ggml-medium.bin -f audio.wav -l pt -otxt
Método 2: Compilar do zero (mais rápido, Metal ativo)
Para máxima performance com GPU:
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make -j GGML_METAL=1
Baixar modelo:
cd models && bash download-ggml-model.sh medium
Transcrever:
./build/bin/whisper-cli -m models/ggml-medium.bin -f audio.wav -l pt -otxt -osrt
Modelos disponíveis e quando usar cada um
- ggml-tiny.bin (~75MB) — ultra rápido, qualidade básica. Bom para testes.
- ggml-base.bin (~142MB) — bom custo-benefício para inglês simples.
- ggml-small.bin (~465MB) — ótimo para português com velocidade razoável.
- ggml-medium.bin (~1.5GB) — melhor qualidade para PT-BR, recomendado.
- ggml-large-v3.bin (~3GB) — máxima precisão, demora mais. Para conteúdo profissional.
- ggml-large-v3-turbo.bin (~1.6GB) — melhor dos dois mundos: qualidade quase large, velocidade medium.
Converter áudio antes de transcrever
O whisper.cpp prefere WAV 16kHz. Se você tem MP3, M4A ou MP4, converta com ffmpeg:
brew install ffmpeg
ffmpeg -i entrada.mp3 -ar 16000 saida.wav
Depois é só rodar o whisper normalmente.
💡 Flags úteis: -l pt (forçar português), -otxt (salvar como .txt), -osrt (salvar como legenda .srt), -t 8 (usar 8 threads do CPU)
Opção sem Terminal: apps com GUI
Se você não quer mexer no Terminal, existem apps com interface gráfica que usam o whisper.cpp por baixo:
- •Aiko (App Store, gratuito) — simples, direto ao ponto
- •MacWhisper — mais opções, versão paga tem recursos avançados
- •Whisper Transcription — focado em podcasts e reuniões
Todos rodam localmente no seu Mac, sem mandar áudio pra nenhum servidor.
Benchmark real no Apple Silicon
Transcrever 1 hora de áudio em português (modelo medium):
- •Mac M1: ~4-6 minutos
- •Mac M2: ~3-4 minutos
- •Mac M3: ~2-3 minutos
- •Mac M4: ~1.5-2 minutos
Com o large-v3-turbo: qualidade superior com tempo similar ao medium no M3/M4. Metal faz toda a diferença — sem ele, seria 30+ minutos.
Casos de uso práticos
- Transcrever reuniões e calls gravadas
- Gerar legendas (SRT) para vídeos do YouTube ou Reels
- Criar texto a partir de áudios de WhatsApp
- Transcrever podcasts para fazer resumos com IA
- Acessibilidade: converter falas para texto em tempo real
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



