Voltar
#mlx#gguf#inferencia-local#llm#apple-silicon#tokens-por-segundo

MLX vs GGUF: qual é mais rápido para IA local?

A diferença entre os dois formatos de inferência e quando usar cada um

por Caio Explica
👋

Preparei isso pra você, @oprudencio!

Espero que esse conteúdo te ajude, oprudencio! Se tiver dúvidas, me chama no X.

Ver tweet original
0:00
0:00

Ouça a narração completa

Boa pergunta! Essa diferença é importante e muda bastante dependendo do hardware e do uso. Vou explicar os dois formatos, quando cada um brilha e qual faz mais sentido para Apple Silicon.

O que é GGUF?

GGUF é o formato usado pelo llama.cpp — a engine de inferência mais popular para rodar LLMs localmente. É multiplataforma: roda em Mac, Linux, Windows, e até em GPUs NVIDIA e AMD. Tem suporte enorme da comunidade, funciona com praticamente todos os modelos disponíveis no Hugging Face, e o Ollama usa GGUF por padrão.

A grande força do GGUF é no processamento do prompt (prefill): carregar um contexto longo de 1.000+ tokens é muito mais rápido no GGUF do que no MLX.

O que é MLX?

MLX é o framework de machine learning da Apple, otimizado especificamente para chips M-series. Ele aproveita a memória unificada e o Neural Engine do Apple Silicon de forma nativa, com operações zero-copy entre CPU e GPU.

A grande força do MLX é na geração de texto (token generation): depois de processar o prompt, o MLX gera tokens significativamente mais rápido que o GGUF na maioria dos modelos.

No Apple Silicon: MLX é geralmente 50-87% mais rápido que GGUF na GERAÇÃO de tokens. GGUF é 3-5x mais rápido no PROCESSAMENTO de prompts longos.

Benchmarks reais (Apple Silicon M4)

  • Llama 3.1 8B — MLX: ~57 tok/s | GGUF Q4_K_M: ~29 tok/s (MLX 2x mais rápido)
  • Qwen2.5 0.5B — MLX: ~317 tok/s | GGUF: ~79 tok/s (MLX 4x mais rápido)
  • Prompt de 1.000 tokens — GGUF: ~3-5s | MLX: ~15-20s (GGUF muito mais rápido aqui)
  • vLLM-MLX em M4 Max: até 525 tok/s em modelos pequenos (otimizado com batching)

Então qual usar para 53 tok/s?

Esse valor de 53 tok/s está na faixa do MLX para modelos maiores (30B+) ou GGUF para modelos médios (13B-30B) no Apple Silicon. Sem saber o modelo exato e o hardware, é difícil afirmar — mas:

  • Se estiver usando Ollama padrão → provavelmente GGUF
  • Se estiver usando LM Studio com modelo .mlx → MLX
  • Se estiver usando mlx-lm direto → MLX

No LM Studio você consegue ver no rodapé qual backend está usando.

Quando usar cada um

  • MLX: melhor para uso conversacional no Mac, geração rápida de texto, modelos até 70B, agentes de IA
  • GGUF: melhor para RAG e contextos longos (>4k tokens no prompt), compatibilidade multiplataforma, Ollama
  • GGUF no Windows/Linux: única opção prática (MLX só funciona no Mac)
  • Para máxima velocidade no Mac: MLX com LM Studio ou mlx-lm

Dica prática: para uso no dia a dia no Mac, use MLX. Para RAG com documentos longos ou servidores Linux, use GGUF. Não tem errado — depende do caso de uso.

Compartilhar
🎖️Criado pelo Major • Powered by AI