Como Rodar uma LLM no M4 Pro: Passo a Passo
Ollama + MLX — do download ao modelo rodando em minutos
Preparei isso pra você, @NoodLy!
Espero que esse conteúdo te ajude, NoodLy! Se tiver dúvidas, me chama no X.
Ver tweet originalOuça a narração completa
Fala, NoodLy! M4 Pro é uma máquina incrível pra rodar LLMs locais — a memória unificada faz toda a diferença. Vou te mostrar o passo a passo completo com duas opções: Ollama (simples) e MLX (máxima performance) 🚀
Por que o M4 Pro é tão bom para IA local?
O segredo do Apple Silicon para IA é a memória unificada. Diferente de um PC com GPU dedicada, no M4 Pro a CPU, GPU e Neural Engine compartilham a mesma memória física. Isso significa que um modelo de 24GB de parâmetros usa os 24GB direto — sem overhead de transferência entre CPU e GPU. O resultado: modelos que não caberiam em placas de vídeo convencionais rodando fluido no Mac.
💡 M4 Pro com 24GB RAM: roda modelos até ~20B parâmetros confortavelmente. M4 Pro com 48GB: empurra até 40B+ com quantização 4-bit.
Opção 1: Ollama (Recomendado para começar)
Ollama é o jeito mais simples de rodar LLMs localmente. É tipo um Docker para modelos de IA.
Instalação:
`
brew install ollama
`
Ou baixe direto em ollama.com
Rodar o primeiro modelo:
`
ollama run llama3.2
`
Ele baixa e já abre um chat no terminal.
Modelos recomendados para M4 Pro:
- •
llama3.2(3B) — ultra rápido, bom para tarefas simples - •
llama3.1:8b— equilíbrio perfeito velocidade/qualidade - •
llama3.1:70b— impressionante, precisa de 48GB RAM - •
mistral:7b— ótimo em português - •
qwen2.5:14b— excelente para código - •
gemma3:12b— o novo do Google, muito bom
Passo a passo completo com Ollama
- 1. Instalar Ollama: brew install ollama (ou baixar de ollama.com)
- 2. Iniciar o serviço: ollama serve (em background)
- 3. Baixar modelo: ollama pull llama3.1:8b
- 4. Rodar no terminal: ollama run llama3.1:8b
- 5. Interface visual: instalar Open WebUI (docker run ghcr.io/open-webui/open-webui)
- 6. Pronto! Chat igual ao ChatGPT, 100% local
Opção 2: MLX Framework (Máxima performance)
MLX é o framework de machine learning da Apple, otimizado especificamente para Apple Silicon. Traz mais performance que Ollama em alguns modelos.
Instalação:
`
pip install mlx-lm
`
Rodar modelo:
`
mlx_lm.generate --model mlx-community/Llama-3.1-8B-Instruct-4bit --prompt "Olá!"
`
Os modelos ficam no HuggingFace sob o namespace mlx-community. Tem praticamente todos os modelos populares já convertidos para MLX.
Vantagem do MLX: usa Neural Engine + GPU do Mac de forma mais eficiente. Em alguns benchmarks chega a 2x mais rápido que Ollama.
⚡ Velocidade esperada no M4 Pro 24GB: Llama 3.1 8B → ~60-80 tokens/segundo (muito fluido!). Llama 3.1 70B (com 48GB) → ~15-20 tok/s.
Interface visual com Open WebUI
Rodar no terminal funciona, mas uma interface visual é muito melhor. Open WebUI é o equivalente ao ChatGPT para modelos locais.
Instalar com Docker:
`
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--name open-webui \
ghcr.io/open-webui/open-webui:main
`
Depois acesse: http://localhost:3000
Ele conecta automaticamente com o Ollama e você tem uma interface completa com histórico de conversas, upload de arquivos, e até Vision (imagens) se o modelo suportar.
Modelos recomendados por caso de uso
- 💬 Chat geral em PT-BR: mistral:7b ou llama3.1:8b
- 💻 Código: qwen2.5-coder:7b ou codellama:13b
- 📚 Análise de documentos: llama3.1:8b + Open WebUI RAG
- 🧠 Raciocínio complexo: deepseek-r1:14b (chain-of-thought nativo)
- ⚡ Ultra rápido (dicas rápidas): llama3.2:3b ou gemma3:4b
- 🔬 Pesquisa/qualidade máxima: llama3.1:70b (precisa 48GB RAM)
Quantização: rodando modelos maiores
Quantização é uma técnica que reduz o tamanho do modelo comprimindo os pesos numéricos. Um modelo 70B em float16 ocupa ~140GB, mas em 4-bit cabe em ~40GB.
No Ollama, modelos com :q4_0 ou :q4_K_M no nome já vêm quantizados.
Exemplos:
- •
ollama pull llama3.1:70b-instruct-q4_K_M→ 70B em ~40GB (precisa de 48GB) - •
ollama pull llama3.3:70b-instruct-q2_K→ 70B ultraleve em ~26GB
Para o M4 Pro com 24GB, o sweet spot é modelos até 14B em 4-bit ou modelos até 8B em float16.
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



