Mac Mini vs Mac Studio: qual roda melhor IA local?
Configurações ideais para máxima velocidade de tokens por segundo em LLMs
Preparei isso pra você, @ludwigbsales!
Espero que esse conteúdo te ajude, Ludwig! Se tiver dúvidas, me chama no X.
Ver tweet originalOuça a narração completa
Fala, Ludwig! Boa pergunta — essa é a dúvida de muita gente que quer rodar IA local de verdade. Vou te explicar o que cada máquina entrega e qual configuração faz sentido pra diferentes necessidades.
Por que Apple Silicon é ótimo para IA local?
O segredo do Apple Silicon é a memória unificada (Unified Memory). Numa GPU comum, o modelo de IA precisa ser carregado na VRAM — limitada a 8, 16, 24GB na maioria dos setups. No Mac, a memória é compartilhada entre CPU, GPU e Neural Engine, então um Mac com 64GB consegue rodar modelos de 64 bilhões de parâmetros com folga. É por isso que os Macs M-series viraram referência para inferência local.
Regra de ouro: para rodar um modelo confortavelmente, você precisa de ~1GB de RAM por bilhão de parâmetros (com quantização Q4). Um modelo 70B precisa de ~35-40GB de memória.
Mac Mini M4 — Para quem?
O Mac Mini M4 é a entrada mais acessível e já entrega muito:
- •M4 base com 16GB: ideal para modelos até 13B. Alcança ~100-200 tok/s em modelos 7B-8B quantizados.
- •M4 Pro com 24GB: roda modelos 30B com conforto, ~50-100 tok/s.
- •M4 Pro com 48GB: território dos 70B, ~30-50 tok/s.
É a escolha certa para desenvolvedores, uso diário, agentes de IA pessoais e quem não precisa de modelos acima de 70B.
Mac Studio M4 Ultra — Para quem?
O Mac Studio com M4 Ultra é outra categoria:
- •128GB de memória unificada: roda modelos 70B com facilidade, ~80-150 tok/s.
- •192GB ou 256GB (configurações top): permite rodar modelos 120B+ localmente.
- •Dois chips M4 Max fundidos: largura de banda de memória absurda (~800 GB/s).
É pra quem precisa de máxima performance: pesquisadores, quem roda múltiplos agentes em paralelo, ou quer os melhores modelos open-source sem depender da nuvem.
Benchmark estimado: tokens por segundo (MLX, Q4)
- Llama 3.1 8B: Mac Mini M4 16GB → ~180 tok/s | Mac Studio M4 Ultra → ~500+ tok/s
- Llama 3.1 70B: Mac Mini M4 Pro 48GB → ~35 tok/s | Mac Studio M4 Ultra 128GB → ~100 tok/s
- Qwen2.5 32B: Mac Mini M4 Pro 48GB → ~60 tok/s | Mac Studio M4 Ultra → ~200 tok/s
- Mixtral 8x7B (47B efetivo): Mac Mini M4 Pro 48GB → ~40 tok/s | Mac Studio M4 Ultra → ~130 tok/s
Para uso conversacional confortável, 30+ tok/s já está ótimo. Acima de 60 tok/s você mal sente a diferença lendo a resposta em tempo real.
Qual framework usar?
Para máxima velocidade no Apple Silicon, use MLX (framework nativo da Apple). Ferramentas como LM Studio, Ollama e mlx-lm rodam MLX de forma simples. GGUF (llama.cpp) também funciona bem e tem vantagem no processamento de prompts longos — mas para geração de texto puro, MLX é ~50-80% mais rápido na maioria dos casos.
Minha recomendação por perfil
- Desenvolvedor / uso pessoal: Mac Mini M4 Pro 24GB (excelente custo-benefício)
- Agentes IA + modelos 70B: Mac Mini M4 Pro 48GB ou Mac Studio M4 Max 64GB
- Profissional / pesquisador / múltiplos agentes: Mac Studio M4 Ultra 128GB+
- Máxima performance possível: Mac Studio M4 Ultra 192GB ou 256GB
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



