Voltar
#ia-local#exo#apple-silicon#cluster#mac-mini#llm#open-source#cultura-builder

Exo Framework: junte seus Macs e rode modelos gigantes de IA em casa

Como transformar dois Macs em um supercomputador de IA local

por Caio Explica
👋

Preparei isso pra você, @0xCVYH!

Espero que esse conteúdo te ajude, Caio! Se tiver dúvidas, me chama no X.

0:00
0:00

Ouça a narração completa

Essa é uma das perguntas que mais recebo: 'dá pra juntar dois Macs pra rodar modelos maiores?' A resposta é SIM — e eu uso isso todo dia. Se você tem mais de um Mac em casa, esse guia vai mudar sua relação com IA local.

O que é o Exo Framework?

Exo (de 'exo-explore') é um projeto open source que transforma qualquer conjunto de dispositivos em um cluster de IA distribuído. Em vez de rodar um modelo inteiro em uma máquina, o Exo divide o modelo entre vários computadores na mesma rede — cada um processa uma fatia e o resultado é combinado automaticamente.

O projeto nasceu da necessidade de rodar modelos frontier (LLaMA 70B+, DeepSeek 671B, Qwen 235B) que não cabem na memória de um único dispositivo. Com o Exo, você some com essa limitação de vez.

🚀 Com dois Macs em cluster, você consegue rodar modelos que precisam de 2x mais RAM do que cada máquina tem individualmente. É como ter um MacBook Pro de 48GB e um Mac Mini de 24GB — mas juntos virarem uma máquina de 72GB de memória unificada.

Como eu uso no dia a dia

Meu cluster atual: Mac Mini M4 (principal) + MacBook Pro conectados via Wi-Fi local. Rodando Qwen3.5 9B, consigo ~53 tokens por segundo — velocidade suficiente pra trabalhar de forma fluida.

O Exo descobre os dois dispositivos automaticamente quando estão na mesma rede. Zero configuração manual. Basta iniciar o Exo em cada máquina e eles se encontram sozinhos. Toda a inferência fica disponível via API em localhost:52415 — compatível com OpenAI, Claude e Ollama.

Por que o Apple Silicon é perfeito pra isso

  • Memória Unificada: CPU e GPU compartilham o mesmo pool de RAM. Um M4 com 32GB tem 32GB de VRAM efetiva — muito mais que uma GPU dedicada comum
  • MLX Backend: O Exo usa MLX (framework da Apple) como backend de inferência, otimizado especificamente pro Silicon. Máxima eficiência
  • RDMA sobre Thunderbolt: Se conectar as máquinas via Thunderbolt 5, a latência cai 99% — velocidade quase igual a uma única máquina grande
  • Eficiência energética: Um Mac Mini M4 Pro consome ~30W durante inferência. Absurdamente eficiente pra o que entrega

Como instalar o Exo no macOS

O processo é direto. Você vai precisar de Xcode instalado (pelo menos as Command Line Tools), e os seguintes pacotes via Homebrew.

Passo a passo de instalação (macOS)

  • Instalar dependências: brew install uv macmon node
  • Instalar Rust nightly: curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh && rustup toolchain install nightly
  • Clonar o repositório: git clone https://github.com/exo-explore/exo
  • Build do dashboard: cd exo/dashboard && npm install && npm run build && cd ..
  • Iniciar o Exo: uv run exo
  • Repetir os passos em TODAS as máquinas do cluster (cada uma roda o Exo)
  • Acesse o dashboard em: http://localhost:52415

📡 A API fica disponível em localhost:52415 — compatível com OpenAI Chat Completions API, Claude Messages API e Ollama API. Funciona com qualquer cliente que você já usa: Continue.dev, Open WebUI, LM Studio como cliente, n8n, etc.

Modelos que funcionam bem em cluster

  • Qwen3.5 9B / 14B — ótimo pra 2 Macs médios, boa velocidade (uso este!)
  • LLaMA 3.3 70B — requer 2 Macs com 32GB+ cada, mas roda impressionante
  • Mistral Small 22B — bom balanço custo-benefício em 2 máquinas
  • DeepSeek R1 32B — raciocínio avançado, perfeito pra cluster de 2 Macs Pro
  • Qwen3 235B (MoE) — pra clusters maiores (4 Mac Studios, como demonstrado pelo Jeff Geerling)
  • Modelos do HuggingFace Hub — Exo suporta carregar qualquer modelo customizado

Por que isso é revolucionário

Empresas gastam dezenas de milhares de dólares por mês em APIs de IA. Com Exo e dois Macs usados, você tem:

  • Custo zero por inferência (só a energia elétrica)
  • Privacidade total — seus dados nunca saem da sua rede
  • Modelos de nível GPT-4 rodando offline
  • Latência mínima (sem round-trip de internet)
  • Sem limitação de contexto, sem rate limit, sem custo por token

Isso não é o futuro. É agora. Eu uso exatamente isso pra processar análises, gerar conteúdo e rodar agentes locais que custaria centenas de dólares por mês em APIs externas.

Dicas práticas para otimizar

Algumas coisas que aprendi usando no dia a dia:

1. Use cabo Ethernet (ou Thunderbolt se possível) entre as máquinas — Wi-Fi funciona mas cria gargalo de banda

2. O nó com mais memória deve ser o principal (onde você acessa a API)

3. Para modelos MoE (Mixture of Experts) como Qwen3 235B, o Exo é especialmente eficiente — os 'experts' podem ser distribuídos naturalmente

4. Monitorar com macmon: veja GPU, CPU e memória de cada nó em tempo real

5. Warm-up: na primeira inferência o modelo precisa ser carregado — depois fica em memória e fica rápido

Compartilhar
🎖️Criado pelo Major • Powered by AI