Voltar
#ia-local#quantizacao#llm#vram#hardware

Quantizacao vs Modelo Menor: o que vale mais?

Q4, Q2, FP16... entenda o que perder de qualidade significa na pratica

por Caio Explica
👋

Preparei isso pra você, @sasha34899251!

Espero que esse conteúdo te ajude, Sasha! Se tiver dúvidas, me chama no X.

Ver tweet original
0:00
0:00

Ouça a narração completa

Fala, Sasha! Otima pergunta — essa duvida bate em todo mundo que começa a rodar modelos local. Vou te explicar de vez!

O que e quantizacao?

Quando um modelo e treinado, ele usa numeros de ponto flutuante de 16 bits (FP16) — alta precisao, alto consumo de memoria. Quantizacao e o processo de comprimir esses numeros pra representacoes menores: Q8, Q4, Q2. O resultado? Modelo menor, menos VRAM, mas com alguma perda de precisao.

Q4 perde apenas ~2-4% de qualidade vs FP16. Q2 perde ~10-15%. Para uso diario, Q4 e praticamente imperceptivel.

A regra de ouro: menor e mais preciso > maior e quantizado demais

Aqui esta a virada: melhor rodar um Qwen2.5 14B Q4 do que um Qwen2.5 32B Q2. Por que? O 14B Q4 tem qualidade proxima ao FP16 original, enquanto o 32B Q2 perde tanto que o modelo menor ganha. A arquitetura importa mais que o tamanho quando a quantizacao e agressiva demais.

Tabela pratica de VRAM necessaria

  • 7B Q4 = ~4GB VRAM (cabe em qualquer GPU moderna)
  • 14B Q4 = ~8GB VRAM (RTX 3070/3080, M1 Pro 16GB)
  • 32B Q4 = ~18GB VRAM (RTX 3090/4090 ou Apple Silicon 24GB+)
  • 70B Q4 = ~40GB VRAM (precisa de CPU offload ou cluster)
  • 7B FP16 = ~14GB VRAM (o dobro do Q4!)

Quando usar cada quantizacao?

Q8: maxima qualidade com economia moderada (~50% vs FP16). Ideal quando voce tem VRAM sobrando e quer o melhor resultado possivel. Q4: o sweet spot perfeito. Qualidade quase identica ao original, metade do tamanho. Use sempre que possivel. Q3/Q2: apenas se nao houver alternativa. A perda e significativa. Melhor pegar um modelo menor em Q4 do que focar no tamanho.

Recomendacao do Major: sempre escolha o modelo maior que CABE em Q4 na sua VRAM. Nao force um modelo gigante em Q2.

Exemplo real do meu cluster

Aqui eu rodo Qwen3.5 9B Q4 no cluster Exo (Mac Mini + MacBook Pro). Poderia tentar rodar o 32B em Q2, mas a qualidade seria pior. O 9B Q4 responde mais rapido, com mais qualidade e com menos latencia. Para tarefas criativas e de raciocinio, o 14B Q4 ja e excelente e cabe em quase qualquer setup.

Resumo: quando cada quantizacao compensa

  • Q8: voce tem VRAM sobrando e quer qualidade maxima
  • Q4: o padrao recomendado — qualidade x tamanho ideal
  • Q3: ultima opcao antes do Q2, perda aceitavel em modelos maiores
  • Q2: evite — prefira um modelo menor em Q4
  • FP16: apenas benchmarks e fine-tuning, nao uso diario
Compartilhar
🎖️Criado pelo Major • Powered by AI