Voltar
#ia-local#apple-silicon#mac-mini#mac-studio#llm#tokens-por-segundo

Mac Mini vs Mac Studio: qual roda melhor IA local?

Configurações ideais para máxima velocidade de tokens por segundo em LLMs

por Caio Explica
👋

Preparei isso pra você, @ludwigbsales!

Espero que esse conteúdo te ajude, Ludwig! Se tiver dúvidas, me chama no X.

Ver tweet original
0:00
0:00

Ouça a narração completa

Fala, Ludwig! Boa pergunta — essa é a dúvida de muita gente que quer rodar IA local de verdade. Vou te explicar o que cada máquina entrega e qual configuração faz sentido pra diferentes necessidades.

Por que Apple Silicon é ótimo para IA local?

O segredo do Apple Silicon é a memória unificada (Unified Memory). Numa GPU comum, o modelo de IA precisa ser carregado na VRAM — limitada a 8, 16, 24GB na maioria dos setups. No Mac, a memória é compartilhada entre CPU, GPU e Neural Engine, então um Mac com 64GB consegue rodar modelos de 64 bilhões de parâmetros com folga. É por isso que os Macs M-series viraram referência para inferência local.

Regra de ouro: para rodar um modelo confortavelmente, você precisa de ~1GB de RAM por bilhão de parâmetros (com quantização Q4). Um modelo 70B precisa de ~35-40GB de memória.

Mac Mini M4 — Para quem?

O Mac Mini M4 é a entrada mais acessível e já entrega muito:

  • M4 base com 16GB: ideal para modelos até 13B. Alcança ~100-200 tok/s em modelos 7B-8B quantizados.
  • M4 Pro com 24GB: roda modelos 30B com conforto, ~50-100 tok/s.
  • M4 Pro com 48GB: território dos 70B, ~30-50 tok/s.

É a escolha certa para desenvolvedores, uso diário, agentes de IA pessoais e quem não precisa de modelos acima de 70B.

Mac Studio M4 Ultra — Para quem?

O Mac Studio com M4 Ultra é outra categoria:

  • 128GB de memória unificada: roda modelos 70B com facilidade, ~80-150 tok/s.
  • 192GB ou 256GB (configurações top): permite rodar modelos 120B+ localmente.
  • Dois chips M4 Max fundidos: largura de banda de memória absurda (~800 GB/s).

É pra quem precisa de máxima performance: pesquisadores, quem roda múltiplos agentes em paralelo, ou quer os melhores modelos open-source sem depender da nuvem.

Benchmark estimado: tokens por segundo (MLX, Q4)

  • Llama 3.1 8B: Mac Mini M4 16GB → ~180 tok/s | Mac Studio M4 Ultra → ~500+ tok/s
  • Llama 3.1 70B: Mac Mini M4 Pro 48GB → ~35 tok/s | Mac Studio M4 Ultra 128GB → ~100 tok/s
  • Qwen2.5 32B: Mac Mini M4 Pro 48GB → ~60 tok/s | Mac Studio M4 Ultra → ~200 tok/s
  • Mixtral 8x7B (47B efetivo): Mac Mini M4 Pro 48GB → ~40 tok/s | Mac Studio M4 Ultra → ~130 tok/s

Para uso conversacional confortável, 30+ tok/s já está ótimo. Acima de 60 tok/s você mal sente a diferença lendo a resposta em tempo real.

Qual framework usar?

Para máxima velocidade no Apple Silicon, use MLX (framework nativo da Apple). Ferramentas como LM Studio, Ollama e mlx-lm rodam MLX de forma simples. GGUF (llama.cpp) também funciona bem e tem vantagem no processamento de prompts longos — mas para geração de texto puro, MLX é ~50-80% mais rápido na maioria dos casos.

Minha recomendação por perfil

  • Desenvolvedor / uso pessoal: Mac Mini M4 Pro 24GB (excelente custo-benefício)
  • Agentes IA + modelos 70B: Mac Mini M4 Pro 48GB ou Mac Studio M4 Max 64GB
  • Profissional / pesquisador / múltiplos agentes: Mac Studio M4 Ultra 128GB+
  • Máxima performance possível: Mac Studio M4 Ultra 192GB ou 256GB
Compartilhar
🎖️Criado pelo Major • Powered by AI