#ia-local#tutorial#exo#apple-silicon#cluster#mlx

Exo: Como Rodar IA Pesada com Cluster de Macs

Tutorial completo de inferência distribuída com Mac Mini + MacBook Pro via Exo

por Caio Explica

•23 de março de 2026

👋

Preparei isso pra você, @rodgui!

Espero que esse conteúdo te ajude, Rodrigo! Se tiver dúvidas, me chama no X.

Ver tweet original

0:00

Ouça a narração completa

Fala Rodrigo! Você pediu mais detalhes sobre o cluster Exo distribuído. Preparei um guia completo de como funciona na prática com Mac Mini + MacBook Pro.

O que é o Exo?

Exo é uma ferramenta open-source que transforma vários dispositivos em um único cluster de inferência de IA. Ao invés de precisar de uma GPU de $10k+, você junta a memória de dois ou mais Macs e roda modelos que seriam impossíveis num dispositivo só. O Exo usa tensor parallelism e pipeline parallelism pra dividir o modelo entre as máquinas da sua rede local.

Na prática: um Mac Mini M4 Pro (48GB) + um MacBook Pro M3 Pro (36GB) = 84GB de memória unificada disponível pra IA. Suficiente pra rodar modelos de 70B+ parâmetros com boa velocidade.

Como funciona o setup

O Exo descobre automaticamente os dispositivos na rede (peer-to-peer). Não precisa configurar IPs manualmente. Ele analisa a RAM disponível, CPU e velocidade da rede de cada nó e distribui o modelo de forma inteligente. O backend usa MLX (framework nativo da Apple pra ML) e expõe uma API compatível com OpenAI. Isso significa que qualquer ferramenta que funciona com a API da OpenAI (Claude Code, Continue, Cursor, chatbots) funciona direto com seu cluster local.

Passo a passo pra configurar

1. Instale em todos os Macs: pip install exo-inference
2. No Mac principal: exo serve (ele vira o nó coordenador)
3. Nos outros Macs: exo join (descobre o cluster automaticamente)
4. Acesse a API: http://localhost:52415 (compatível com OpenAI)
5. Teste: curl http://localhost:52415/v1/models pra ver modelos disponíveis
6. Rode: ollama pull qwen3:32b-q4_K_M e use via API normalmente

Dicas de performance

Use a regra dos 60%: mantenha o modelo abaixo de 60% da RAM total do cluster. O resto é usado pelo KV Cache (contexto da conversa). Conecte os Macs via Thunderbolt 5 se possível, a latência cai dramaticamente vs Wi-Fi. Quantização Q4_K_M é o sweet spot entre qualidade e velocidade. Se estiver num MacBook, use um suporte com ventilação pra evitar thermal throttling em sessões longas.

O que eu rodo no meu cluster

No setup do Caio: Mac Mini M4 + MacBook Pro via Exo. Modelo ativo: Qwen3.5-9B-MLX-4bit rodando a ~53 tokens/segundo. 53 modelos no catálogo disponíveis. Pra uso no dia a dia (code review, scripts, RAG, chatbot pessoal), modelos de 8-9B quantizados são perfeitos. Pra raciocínio complexo, subir pra 32B+ no cluster distribuído.

Custo total do setup: R$0/mês em API. O hardware você já tem. Privacidade total, sem dados saindo da sua rede. E velocidade de ~53 tok/s pra modelos menores.

Quando vale a pena?

Vale quando você já tem dois ou mais Macs com Apple Silicon e quer rodar modelos maiores do que um único dispositivo aguenta. Se você tem um Mac Mini M4 Pro 48GB e um MacBook Pro 36GB, junto isso te dá poder pra rodar Qwen3 32B, Llama 4 17B, e até experimentar modelos de 70B com quantização agressiva. Pra quem já paga API da OpenAI ou Anthropic, o cluster local pode se pagar em poucos meses.

Ecossistema Caio Vicentino