#llm#apple-silicon#m4-pro#ollama#mlx#ia-local

Como Rodar uma LLM no M4 Pro: Passo a Passo

Ollama + MLX — do download ao modelo rodando em minutos

por Caio Explica

•17 de março de 2026

👋

Preparei isso pra você, @NoodLy!

Espero que esse conteúdo te ajude, NoodLy! Se tiver dúvidas, me chama no X.

Ver tweet original

0:00

Ouça a narração completa

Fala, NoodLy! M4 Pro é uma máquina incrível pra rodar LLMs locais — a memória unificada faz toda a diferença. Vou te mostrar o passo a passo completo com duas opções: Ollama (simples) e MLX (máxima performance) 🚀

Por que o M4 Pro é tão bom para IA local?

O segredo do Apple Silicon para IA é a memória unificada. Diferente de um PC com GPU dedicada, no M4 Pro a CPU, GPU e Neural Engine compartilham a mesma memória física. Isso significa que um modelo de 24GB de parâmetros usa os 24GB direto — sem overhead de transferência entre CPU e GPU. O resultado: modelos que não caberiam em placas de vídeo convencionais rodando fluido no Mac.

💡 M4 Pro com 24GB RAM: roda modelos até ~20B parâmetros confortavelmente. M4 Pro com 48GB: empurra até 40B+ com quantização 4-bit.

Opção 1: Ollama (Recomendado para começar)

Ollama é o jeito mais simples de rodar LLMs localmente. É tipo um Docker para modelos de IA.

Instalação:

brew install ollama

Ou baixe direto em ollama.com

Rodar o primeiro modelo:

ollama run llama3.2

Ele baixa e já abre um chat no terminal.

Modelos recomendados para M4 Pro:

•llama3.2 (3B) — ultra rápido, bom para tarefas simples
•llama3.1:8b — equilíbrio perfeito velocidade/qualidade
•llama3.1:70b — impressionante, precisa de 48GB RAM
•mistral:7b — ótimo em português
•qwen2.5:14b — excelente para código
•gemma3:12b — o novo do Google, muito bom

Passo a passo completo com Ollama

1. Instalar Ollama: brew install ollama (ou baixar de ollama.com)
2. Iniciar o serviço: ollama serve (em background)
3. Baixar modelo: ollama pull llama3.1:8b
4. Rodar no terminal: ollama run llama3.1:8b
5. Interface visual: instalar Open WebUI (docker run ghcr.io/open-webui/open-webui)
6. Pronto! Chat igual ao ChatGPT, 100% local

Opção 2: MLX Framework (Máxima performance)

MLX é o framework de machine learning da Apple, otimizado especificamente para Apple Silicon. Traz mais performance que Ollama em alguns modelos.

Instalação:

pip install mlx-lm

Rodar modelo:

mlx_lm.generate --model mlx-community/Llama-3.1-8B-Instruct-4bit --prompt "Olá!"

Os modelos ficam no HuggingFace sob o namespace mlx-community. Tem praticamente todos os modelos populares já convertidos para MLX.

Vantagem do MLX: usa Neural Engine + GPU do Mac de forma mais eficiente. Em alguns benchmarks chega a 2x mais rápido que Ollama.

⚡ Velocidade esperada no M4 Pro 24GB: Llama 3.1 8B → ~60-80 tokens/segundo (muito fluido!). Llama 3.1 70B (com 48GB) → ~15-20 tok/s.

Interface visual com Open WebUI

Rodar no terminal funciona, mas uma interface visual é muito melhor. Open WebUI é o equivalente ao ChatGPT para modelos locais.

Instalar com Docker:

docker run -d -p 3000:8080 \

-v open-webui:/app/backend/data \

--name open-webui \

ghcr.io/open-webui/open-webui:main

Depois acesse: http://localhost:3000

Ele conecta automaticamente com o Ollama e você tem uma interface completa com histórico de conversas, upload de arquivos, e até Vision (imagens) se o modelo suportar.

Modelos recomendados por caso de uso

💬 Chat geral em PT-BR: mistral:7b ou llama3.1:8b
💻 Código: qwen2.5-coder:7b ou codellama:13b
📚 Análise de documentos: llama3.1:8b + Open WebUI RAG
🧠 Raciocínio complexo: deepseek-r1:14b (chain-of-thought nativo)
⚡ Ultra rápido (dicas rápidas): llama3.2:3b ou gemma3:4b
🔬 Pesquisa/qualidade máxima: llama3.1:70b (precisa 48GB RAM)

Quantização: rodando modelos maiores

Quantização é uma técnica que reduz o tamanho do modelo comprimindo os pesos numéricos. Um modelo 70B em float16 ocupa ~140GB, mas em 4-bit cabe em ~40GB.

No Ollama, modelos com :q4_0 ou :q4_K_M no nome já vêm quantizados.

Exemplos:

•ollama pull llama3.1:70b-instruct-q4_K_M → 70B em ~40GB (precisa de 48GB)
•ollama pull llama3.3:70b-instruct-q2_K → 70B ultraleve em ~26GB

Para o M4 Pro com 24GB, o sweet spot é modelos até 14B em 4-bit ou modelos até 8B em float16.

Ecossistema Caio Vicentino

Quer ir mais fundo?

Cultura Builder

Construa o futuro com IA

"Aprendi a construir com IA em tempo recorde. Mudou minha carreira!" — Ana P.

Investimento

R$2.998

Saber Mais

Renda Cripto

Aprenda DeFi do zero ao avançado

"Finalmente entendi DeFi de verdade. Valeu cada centavo!" — João M.

Investimento

R$1.597

Saber Mais

Yield Hacker Pass

Alpha exclusivo + comunidade ativa

"A melhor comunidade cripto do Brasil. Alpha todo dia!" — Carlos R.

Acesso

NFT Pass

Saber Mais

← Deslize para ver mais →