Exo: Como Rodar IA Pesada com Cluster de Macs
Tutorial completo de inferência distribuída com Mac Mini + MacBook Pro via Exo
Preparei isso pra você, @rodgui!
Espero que esse conteúdo te ajude, Rodrigo! Se tiver dúvidas, me chama no X.
Ver tweet originalOuça a narração completa
Fala Rodrigo! Você pediu mais detalhes sobre o cluster Exo distribuído. Preparei um guia completo de como funciona na prática com Mac Mini + MacBook Pro.
O que é o Exo?
Exo é uma ferramenta open-source que transforma vários dispositivos em um único cluster de inferência de IA. Ao invés de precisar de uma GPU de $10k+, você junta a memória de dois ou mais Macs e roda modelos que seriam impossíveis num dispositivo só. O Exo usa tensor parallelism e pipeline parallelism pra dividir o modelo entre as máquinas da sua rede local.
Na prática: um Mac Mini M4 Pro (48GB) + um MacBook Pro M3 Pro (36GB) = 84GB de memória unificada disponível pra IA. Suficiente pra rodar modelos de 70B+ parâmetros com boa velocidade.
Como funciona o setup
O Exo descobre automaticamente os dispositivos na rede (peer-to-peer). Não precisa configurar IPs manualmente. Ele analisa a RAM disponível, CPU e velocidade da rede de cada nó e distribui o modelo de forma inteligente. O backend usa MLX (framework nativo da Apple pra ML) e expõe uma API compatível com OpenAI. Isso significa que qualquer ferramenta que funciona com a API da OpenAI (Claude Code, Continue, Cursor, chatbots) funciona direto com seu cluster local.
Passo a passo pra configurar
- 1. Instale em todos os Macs: pip install exo-inference
- 2. No Mac principal: exo serve (ele vira o nó coordenador)
- 3. Nos outros Macs: exo join (descobre o cluster automaticamente)
- 4. Acesse a API: http://localhost:52415 (compatível com OpenAI)
- 5. Teste: curl http://localhost:52415/v1/models pra ver modelos disponíveis
- 6. Rode: ollama pull qwen3:32b-q4_K_M e use via API normalmente
Dicas de performance
Use a regra dos 60%: mantenha o modelo abaixo de 60% da RAM total do cluster. O resto é usado pelo KV Cache (contexto da conversa). Conecte os Macs via Thunderbolt 5 se possível, a latência cai dramaticamente vs Wi-Fi. Quantização Q4_K_M é o sweet spot entre qualidade e velocidade. Se estiver num MacBook, use um suporte com ventilação pra evitar thermal throttling em sessões longas.
O que eu rodo no meu cluster
No setup do Caio: Mac Mini M4 + MacBook Pro via Exo. Modelo ativo: Qwen3.5-9B-MLX-4bit rodando a ~53 tokens/segundo. 53 modelos no catálogo disponíveis. Pra uso no dia a dia (code review, scripts, RAG, chatbot pessoal), modelos de 8-9B quantizados são perfeitos. Pra raciocínio complexo, subir pra 32B+ no cluster distribuído.
Custo total do setup: R$0/mês em API. O hardware você já tem. Privacidade total, sem dados saindo da sua rede. E velocidade de ~53 tok/s pra modelos menores.
Quando vale a pena?
Vale quando você já tem dois ou mais Macs com Apple Silicon e quer rodar modelos maiores do que um único dispositivo aguenta. Se você tem um Mac Mini M4 Pro 48GB e um MacBook Pro 36GB, junto isso te dá poder pra rodar Qwen3 32B, Llama 4 17B, e até experimentar modelos de 70B com quantização agressiva. Pra quem já paga API da OpenAI ou Anthropic, o cluster local pode se pagar em poucos meses.
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



