MLX vs GGUF: qual é mais rápido para IA local?
A diferença entre os dois formatos de inferência e quando usar cada um
Preparei isso pra você, @oprudencio!
Espero que esse conteúdo te ajude, oprudencio! Se tiver dúvidas, me chama no X.
Ver tweet originalOuça a narração completa
Boa pergunta! Essa diferença é importante e muda bastante dependendo do hardware e do uso. Vou explicar os dois formatos, quando cada um brilha e qual faz mais sentido para Apple Silicon.
O que é GGUF?
GGUF é o formato usado pelo llama.cpp — a engine de inferência mais popular para rodar LLMs localmente. É multiplataforma: roda em Mac, Linux, Windows, e até em GPUs NVIDIA e AMD. Tem suporte enorme da comunidade, funciona com praticamente todos os modelos disponíveis no Hugging Face, e o Ollama usa GGUF por padrão.
A grande força do GGUF é no processamento do prompt (prefill): carregar um contexto longo de 1.000+ tokens é muito mais rápido no GGUF do que no MLX.
O que é MLX?
MLX é o framework de machine learning da Apple, otimizado especificamente para chips M-series. Ele aproveita a memória unificada e o Neural Engine do Apple Silicon de forma nativa, com operações zero-copy entre CPU e GPU.
A grande força do MLX é na geração de texto (token generation): depois de processar o prompt, o MLX gera tokens significativamente mais rápido que o GGUF na maioria dos modelos.
No Apple Silicon: MLX é geralmente 50-87% mais rápido que GGUF na GERAÇÃO de tokens. GGUF é 3-5x mais rápido no PROCESSAMENTO de prompts longos.
Benchmarks reais (Apple Silicon M4)
- Llama 3.1 8B — MLX: ~57 tok/s | GGUF Q4_K_M: ~29 tok/s (MLX 2x mais rápido)
- Qwen2.5 0.5B — MLX: ~317 tok/s | GGUF: ~79 tok/s (MLX 4x mais rápido)
- Prompt de 1.000 tokens — GGUF: ~3-5s | MLX: ~15-20s (GGUF muito mais rápido aqui)
- vLLM-MLX em M4 Max: até 525 tok/s em modelos pequenos (otimizado com batching)
Então qual usar para 53 tok/s?
Esse valor de 53 tok/s está na faixa do MLX para modelos maiores (30B+) ou GGUF para modelos médios (13B-30B) no Apple Silicon. Sem saber o modelo exato e o hardware, é difícil afirmar — mas:
- •Se estiver usando Ollama padrão → provavelmente GGUF
- •Se estiver usando LM Studio com modelo .mlx → MLX
- •Se estiver usando mlx-lm direto → MLX
No LM Studio você consegue ver no rodapé qual backend está usando.
Quando usar cada um
- MLX: melhor para uso conversacional no Mac, geração rápida de texto, modelos até 70B, agentes de IA
- GGUF: melhor para RAG e contextos longos (>4k tokens no prompt), compatibilidade multiplataforma, Ollama
- GGUF no Windows/Linux: única opção prática (MLX só funciona no Mac)
- Para máxima velocidade no Mac: MLX com LM Studio ou mlx-lm
Dica prática: para uso no dia a dia no Mac, use MLX. Para RAG com documentos longos ou servidores Linux, use GGUF. Não tem errado — depende do caso de uso.
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



