Voltar
#llm#apple-silicon#m4-pro#ollama#mlx#ia-local

Como Rodar uma LLM no M4 Pro: Passo a Passo

Ollama + MLX — do download ao modelo rodando em minutos

por Caio Explica
👋

Preparei isso pra você, @NoodLy!

Espero que esse conteúdo te ajude, NoodLy! Se tiver dúvidas, me chama no X.

Ver tweet original
0:00
0:00

Ouça a narração completa

Fala, NoodLy! M4 Pro é uma máquina incrível pra rodar LLMs locais — a memória unificada faz toda a diferença. Vou te mostrar o passo a passo completo com duas opções: Ollama (simples) e MLX (máxima performance) 🚀

Por que o M4 Pro é tão bom para IA local?

O segredo do Apple Silicon para IA é a memória unificada. Diferente de um PC com GPU dedicada, no M4 Pro a CPU, GPU e Neural Engine compartilham a mesma memória física. Isso significa que um modelo de 24GB de parâmetros usa os 24GB direto — sem overhead de transferência entre CPU e GPU. O resultado: modelos que não caberiam em placas de vídeo convencionais rodando fluido no Mac.

💡 M4 Pro com 24GB RAM: roda modelos até ~20B parâmetros confortavelmente. M4 Pro com 48GB: empurra até 40B+ com quantização 4-bit.

Opção 1: Ollama (Recomendado para começar)

Ollama é o jeito mais simples de rodar LLMs localmente. É tipo um Docker para modelos de IA.

Instalação:

`

brew install ollama

`

Ou baixe direto em ollama.com

Rodar o primeiro modelo:

`

ollama run llama3.2

`

Ele baixa e já abre um chat no terminal.

Modelos recomendados para M4 Pro:

  • llama3.2 (3B) — ultra rápido, bom para tarefas simples
  • llama3.1:8b — equilíbrio perfeito velocidade/qualidade
  • llama3.1:70b — impressionante, precisa de 48GB RAM
  • mistral:7b — ótimo em português
  • qwen2.5:14b — excelente para código
  • gemma3:12b — o novo do Google, muito bom

Passo a passo completo com Ollama

  • 1. Instalar Ollama: brew install ollama (ou baixar de ollama.com)
  • 2. Iniciar o serviço: ollama serve (em background)
  • 3. Baixar modelo: ollama pull llama3.1:8b
  • 4. Rodar no terminal: ollama run llama3.1:8b
  • 5. Interface visual: instalar Open WebUI (docker run ghcr.io/open-webui/open-webui)
  • 6. Pronto! Chat igual ao ChatGPT, 100% local

Opção 2: MLX Framework (Máxima performance)

MLX é o framework de machine learning da Apple, otimizado especificamente para Apple Silicon. Traz mais performance que Ollama em alguns modelos.

Instalação:

`

pip install mlx-lm

`

Rodar modelo:

`

mlx_lm.generate --model mlx-community/Llama-3.1-8B-Instruct-4bit --prompt "Olá!"

`

Os modelos ficam no HuggingFace sob o namespace mlx-community. Tem praticamente todos os modelos populares já convertidos para MLX.

Vantagem do MLX: usa Neural Engine + GPU do Mac de forma mais eficiente. Em alguns benchmarks chega a 2x mais rápido que Ollama.

⚡ Velocidade esperada no M4 Pro 24GB: Llama 3.1 8B → ~60-80 tokens/segundo (muito fluido!). Llama 3.1 70B (com 48GB) → ~15-20 tok/s.

Interface visual com Open WebUI

Rodar no terminal funciona, mas uma interface visual é muito melhor. Open WebUI é o equivalente ao ChatGPT para modelos locais.

Instalar com Docker:

`

docker run -d -p 3000:8080 \

-v open-webui:/app/backend/data \

--name open-webui \

ghcr.io/open-webui/open-webui:main

`

Depois acesse: http://localhost:3000

Ele conecta automaticamente com o Ollama e você tem uma interface completa com histórico de conversas, upload de arquivos, e até Vision (imagens) se o modelo suportar.

Modelos recomendados por caso de uso

  • 💬 Chat geral em PT-BR: mistral:7b ou llama3.1:8b
  • 💻 Código: qwen2.5-coder:7b ou codellama:13b
  • 📚 Análise de documentos: llama3.1:8b + Open WebUI RAG
  • 🧠 Raciocínio complexo: deepseek-r1:14b (chain-of-thought nativo)
  • ⚡ Ultra rápido (dicas rápidas): llama3.2:3b ou gemma3:4b
  • 🔬 Pesquisa/qualidade máxima: llama3.1:70b (precisa 48GB RAM)

Quantização: rodando modelos maiores

Quantização é uma técnica que reduz o tamanho do modelo comprimindo os pesos numéricos. Um modelo 70B em float16 ocupa ~140GB, mas em 4-bit cabe em ~40GB.

No Ollama, modelos com :q4_0 ou :q4_K_M no nome já vêm quantizados.

Exemplos:

  • ollama pull llama3.1:70b-instruct-q4_K_M → 70B em ~40GB (precisa de 48GB)
  • ollama pull llama3.3:70b-instruct-q2_K → 70B ultraleve em ~26GB

Para o M4 Pro com 24GB, o sweet spot é modelos até 14B em 4-bit ou modelos até 8B em float16.

Compartilhar
🎖️Criado pelo Major • Powered by AI