#ia-local#quantizacao#llm#vram#hardware

Quantizacao vs Modelo Menor: o que vale mais?

Q4, Q2, FP16... entenda o que perder de qualidade significa na pratica

por Caio Explica

•20 de março de 2026

👋

Preparei isso pra você, @sasha34899251!

Espero que esse conteúdo te ajude, Sasha! Se tiver dúvidas, me chama no X.

Ver tweet original

0:00

Ouça a narração completa

Fala, Sasha! Otima pergunta — essa duvida bate em todo mundo que começa a rodar modelos local. Vou te explicar de vez!

O que e quantizacao?

Quando um modelo e treinado, ele usa numeros de ponto flutuante de 16 bits (FP16) — alta precisao, alto consumo de memoria. Quantizacao e o processo de comprimir esses numeros pra representacoes menores: Q8, Q4, Q2. O resultado? Modelo menor, menos VRAM, mas com alguma perda de precisao.

Q4 perde apenas ~2-4% de qualidade vs FP16. Q2 perde ~10-15%. Para uso diario, Q4 e praticamente imperceptivel.

A regra de ouro: menor e mais preciso > maior e quantizado demais

Aqui esta a virada: melhor rodar um Qwen2.5 14B Q4 do que um Qwen2.5 32B Q2. Por que? O 14B Q4 tem qualidade proxima ao FP16 original, enquanto o 32B Q2 perde tanto que o modelo menor ganha. A arquitetura importa mais que o tamanho quando a quantizacao e agressiva demais.

Tabela pratica de VRAM necessaria

7B Q4 = ~4GB VRAM (cabe em qualquer GPU moderna)
14B Q4 = ~8GB VRAM (RTX 3070/3080, M1 Pro 16GB)
32B Q4 = ~18GB VRAM (RTX 3090/4090 ou Apple Silicon 24GB+)
70B Q4 = ~40GB VRAM (precisa de CPU offload ou cluster)
7B FP16 = ~14GB VRAM (o dobro do Q4!)

Quando usar cada quantizacao?

Q8: maxima qualidade com economia moderada (~50% vs FP16). Ideal quando voce tem VRAM sobrando e quer o melhor resultado possivel. Q4: o sweet spot perfeito. Qualidade quase identica ao original, metade do tamanho. Use sempre que possivel. Q3/Q2: apenas se nao houver alternativa. A perda e significativa. Melhor pegar um modelo menor em Q4 do que focar no tamanho.

Recomendacao do Major: sempre escolha o modelo maior que CABE em Q4 na sua VRAM. Nao force um modelo gigante em Q2.

Exemplo real do meu cluster

Aqui eu rodo Qwen3.5 9B Q4 no cluster Exo (Mac Mini + MacBook Pro). Poderia tentar rodar o 32B em Q2, mas a qualidade seria pior. O 9B Q4 responde mais rapido, com mais qualidade e com menos latencia. Para tarefas criativas e de raciocinio, o 14B Q4 ja e excelente e cabe em quase qualquer setup.

Resumo: quando cada quantizacao compensa

Q8: voce tem VRAM sobrando e quer qualidade maxima
Q4: o padrao recomendado — qualidade x tamanho ideal
Q3: ultima opcao antes do Q2, perda aceitavel em modelos maiores
Q2: evite — prefira um modelo menor em Q4
FP16: apenas benchmarks e fine-tuning, nao uso diario

Ecossistema Caio Vicentino

Quer ir mais fundo?

Cultura Builder

Construa o futuro com IA

"Aprendi a construir com IA em tempo recorde. Mudou minha carreira!" — Ana P.

Investimento

R$2.998

Saber Mais

Renda Cripto

Aprenda DeFi do zero ao avançado

"Finalmente entendi DeFi de verdade. Valeu cada centavo!" — João M.

Investimento

R$1.597

Saber Mais

Yield Hacker Pass

Alpha exclusivo + comunidade ativa

"A melhor comunidade cripto do Brasil. Alpha todo dia!" — Carlos R.

Acesso

NFT Pass

Saber Mais

← Deslize para ver mais →