Voltar
#whisper#apple-silicon#ia-local#transcricao#mac#m1#m2#m3#m4#tutorial

Como rodar Whisper no Mac M1/M2/M3/M4

Transcrição de áudio 100% local, grátis e rápida no Apple Silicon

por Caio Explica
👋

Preparei isso pra você, @voce!

Espero que esse conteúdo te ajude, você! Se tiver dúvidas, me chama no X.

0:00
0:00

Ouça a narração completa

Essa pergunta tá aparecendo muito hoje — como rodar o Whisper no Mac com chip M1, M2, M3 ou M4. Preparei esse guia completo antes que você precisasse perguntar. 🎖️

O que é o Whisper?

O Whisper é o modelo de transcrição de áudio da OpenAI. Ele converte fala em texto com uma precisão absurda, suporta português e dezenas de idiomas, e o melhor: a versão open source (whisper.cpp) roda 100% no seu Mac, sem internet, sem API, sem custo.

🍎 No Apple Silicon (M1/M2/M3/M4), o whisper.cpp usa o chip Metal da GPU nativamente — fica até 10x mais rápido do que rodar no CPU.

Método 1: Homebrew (recomendado — 2 comandos)

A forma mais rápida de instalar. Abra o Terminal e rode:

brew install whisper-cpp

Depois baixe um modelo. Para português, o 'medium' tem ótima qualidade:

mkdir -p ~/.cache/whisper

curl -L -o ~/.cache/whisper/ggml-medium.bin https://huggingface.co/ggerganov/whisper.cpp/resolve/main/ggml-medium.bin

Pronto. Para transcrever:

whisper-cpp -m ~/.cache/whisper/ggml-medium.bin -f audio.wav -l pt -otxt

Método 2: Compilar do zero (mais rápido, Metal ativo)

Para máxima performance com GPU:

git clone https://github.com/ggerganov/whisper.cpp

cd whisper.cpp

make -j GGML_METAL=1

Baixar modelo:

cd models && bash download-ggml-model.sh medium

Transcrever:

./build/bin/whisper-cli -m models/ggml-medium.bin -f audio.wav -l pt -otxt -osrt

Modelos disponíveis e quando usar cada um

  • ggml-tiny.bin (~75MB) — ultra rápido, qualidade básica. Bom para testes.
  • ggml-base.bin (~142MB) — bom custo-benefício para inglês simples.
  • ggml-small.bin (~465MB) — ótimo para português com velocidade razoável.
  • ggml-medium.bin (~1.5GB) — melhor qualidade para PT-BR, recomendado.
  • ggml-large-v3.bin (~3GB) — máxima precisão, demora mais. Para conteúdo profissional.
  • ggml-large-v3-turbo.bin (~1.6GB) — melhor dos dois mundos: qualidade quase large, velocidade medium.

Converter áudio antes de transcrever

O whisper.cpp prefere WAV 16kHz. Se você tem MP3, M4A ou MP4, converta com ffmpeg:

brew install ffmpeg

ffmpeg -i entrada.mp3 -ar 16000 saida.wav

Depois é só rodar o whisper normalmente.

💡 Flags úteis: -l pt (forçar português), -otxt (salvar como .txt), -osrt (salvar como legenda .srt), -t 8 (usar 8 threads do CPU)

Opção sem Terminal: apps com GUI

Se você não quer mexer no Terminal, existem apps com interface gráfica que usam o whisper.cpp por baixo:

  • Aiko (App Store, gratuito) — simples, direto ao ponto
  • MacWhisper — mais opções, versão paga tem recursos avançados
  • Whisper Transcription — focado em podcasts e reuniões

Todos rodam localmente no seu Mac, sem mandar áudio pra nenhum servidor.

Benchmark real no Apple Silicon

Transcrever 1 hora de áudio em português (modelo medium):

  • Mac M1: ~4-6 minutos
  • Mac M2: ~3-4 minutos
  • Mac M3: ~2-3 minutos
  • Mac M4: ~1.5-2 minutos

Com o large-v3-turbo: qualidade superior com tempo similar ao medium no M3/M4. Metal faz toda a diferença — sem ele, seria 30+ minutos.

Casos de uso práticos

  • Transcrever reuniões e calls gravadas
  • Gerar legendas (SRT) para vídeos do YouTube ou Reels
  • Criar texto a partir de áudios de WhatsApp
  • Transcrever podcasts para fazer resumos com IA
  • Acessibilidade: converter falas para texto em tempo real
Compartilhar
🎖️Criado pelo Major • Powered by AI