Exo Framework: junte seus Macs e rode modelos gigantes de IA em casa
Como transformar dois Macs em um supercomputador de IA local
Preparei isso pra você, @0xCVYH!
Espero que esse conteúdo te ajude, Caio! Se tiver dúvidas, me chama no X.
Ouça a narração completa
Essa é uma das perguntas que mais recebo: 'dá pra juntar dois Macs pra rodar modelos maiores?' A resposta é SIM — e eu uso isso todo dia. Se você tem mais de um Mac em casa, esse guia vai mudar sua relação com IA local.
O que é o Exo Framework?
Exo (de 'exo-explore') é um projeto open source que transforma qualquer conjunto de dispositivos em um cluster de IA distribuído. Em vez de rodar um modelo inteiro em uma máquina, o Exo divide o modelo entre vários computadores na mesma rede — cada um processa uma fatia e o resultado é combinado automaticamente.
O projeto nasceu da necessidade de rodar modelos frontier (LLaMA 70B+, DeepSeek 671B, Qwen 235B) que não cabem na memória de um único dispositivo. Com o Exo, você some com essa limitação de vez.
🚀 Com dois Macs em cluster, você consegue rodar modelos que precisam de 2x mais RAM do que cada máquina tem individualmente. É como ter um MacBook Pro de 48GB e um Mac Mini de 24GB — mas juntos virarem uma máquina de 72GB de memória unificada.
Como eu uso no dia a dia
Meu cluster atual: Mac Mini M4 (principal) + MacBook Pro conectados via Wi-Fi local. Rodando Qwen3.5 9B, consigo ~53 tokens por segundo — velocidade suficiente pra trabalhar de forma fluida.
O Exo descobre os dois dispositivos automaticamente quando estão na mesma rede. Zero configuração manual. Basta iniciar o Exo em cada máquina e eles se encontram sozinhos. Toda a inferência fica disponível via API em localhost:52415 — compatível com OpenAI, Claude e Ollama.
Por que o Apple Silicon é perfeito pra isso
- Memória Unificada: CPU e GPU compartilham o mesmo pool de RAM. Um M4 com 32GB tem 32GB de VRAM efetiva — muito mais que uma GPU dedicada comum
- MLX Backend: O Exo usa MLX (framework da Apple) como backend de inferência, otimizado especificamente pro Silicon. Máxima eficiência
- RDMA sobre Thunderbolt: Se conectar as máquinas via Thunderbolt 5, a latência cai 99% — velocidade quase igual a uma única máquina grande
- Eficiência energética: Um Mac Mini M4 Pro consome ~30W durante inferência. Absurdamente eficiente pra o que entrega
Como instalar o Exo no macOS
O processo é direto. Você vai precisar de Xcode instalado (pelo menos as Command Line Tools), e os seguintes pacotes via Homebrew.
Passo a passo de instalação (macOS)
- Instalar dependências: brew install uv macmon node
- Instalar Rust nightly: curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh && rustup toolchain install nightly
- Clonar o repositório: git clone https://github.com/exo-explore/exo
- Build do dashboard: cd exo/dashboard && npm install && npm run build && cd ..
- Iniciar o Exo: uv run exo
- Repetir os passos em TODAS as máquinas do cluster (cada uma roda o Exo)
- Acesse o dashboard em: http://localhost:52415
📡 A API fica disponível em localhost:52415 — compatível com OpenAI Chat Completions API, Claude Messages API e Ollama API. Funciona com qualquer cliente que você já usa: Continue.dev, Open WebUI, LM Studio como cliente, n8n, etc.
Modelos que funcionam bem em cluster
- Qwen3.5 9B / 14B — ótimo pra 2 Macs médios, boa velocidade (uso este!)
- LLaMA 3.3 70B — requer 2 Macs com 32GB+ cada, mas roda impressionante
- Mistral Small 22B — bom balanço custo-benefício em 2 máquinas
- DeepSeek R1 32B — raciocínio avançado, perfeito pra cluster de 2 Macs Pro
- Qwen3 235B (MoE) — pra clusters maiores (4 Mac Studios, como demonstrado pelo Jeff Geerling)
- Modelos do HuggingFace Hub — Exo suporta carregar qualquer modelo customizado
Por que isso é revolucionário
Empresas gastam dezenas de milhares de dólares por mês em APIs de IA. Com Exo e dois Macs usados, você tem:
- •Custo zero por inferência (só a energia elétrica)
- •Privacidade total — seus dados nunca saem da sua rede
- •Modelos de nível GPT-4 rodando offline
- •Latência mínima (sem round-trip de internet)
- •Sem limitação de contexto, sem rate limit, sem custo por token
Isso não é o futuro. É agora. Eu uso exatamente isso pra processar análises, gerar conteúdo e rodar agentes locais que custaria centenas de dólares por mês em APIs externas.
Dicas práticas para otimizar
Algumas coisas que aprendi usando no dia a dia:
1. Use cabo Ethernet (ou Thunderbolt se possível) entre as máquinas — Wi-Fi funciona mas cria gargalo de banda
2. O nó com mais memória deve ser o principal (onde você acessa a API)
3. Para modelos MoE (Mixture of Experts) como Qwen3 235B, o Exo é especialmente eficiente — os 'experts' podem ser distribuídos naturalmente
4. Monitorar com macmon: veja GPU, CPU e memória de cada nó em tempo real
5. Warm-up: na primeira inferência o modelo precisa ser carregado — depois fica em memória e fica rápido
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



