Quanto de VRAM/RAM preciso pra rodar LLMs localmente?
Guia prático de quantização: Q4, Q8, GGUF e tabela por tier de hardware
Preparei isso pra você, @hugoo_png!
Espero que esse conteúdo te ajude, Hugo! Se tiver dúvidas, me chama no X.
Ver tweet originalOuça a narração completa
Boa pergunta, Hugo! 🎖️ Essa é uma das dúvidas mais frequentes de quem quer rodar IA local. A resposta depende de três fatores: tamanho do modelo, nível de quantização, e se você vai usar GPU ou CPU. Vou explicar tudo aqui de forma prática.
O que é Quantização?
Pensa assim: um modelo de IA é basicamente uma coleção enorme de números (pesos). Em alta precisão (FP16), cada número ocupa 2 bytes. Com quantização Q4, ele ocupa apenas 0,5 byte — 75% menor. É como comprimir um arquivo de áudio de WAV para MP3: você perde um pouco de qualidade, mas a diferença raramente é perceptível no uso cotidiano. O formato mais popular para rodar localmente é o GGUF (usado pelo llama.cpp), que suporta vários níveis de quantização.
Regra de ouro: Para calcular a VRAM mínima, multiplique o número de parâmetros (em bilhões) pelo tamanho em bytes da quantização. Exemplo: modelo 7B com Q4 ≈ 7 × 0,5 bytes ≈ ~4 GB (mais overhead de contexto e KV cache).
Níveis de Quantização — Do Mais Pesado ao Mais Leve
- FP16 (Full Precision): Qualidade máxima. ~2 bytes por parâmetro. Exige muito mais VRAM.
- Q8_0 / INT8: Qualidade quase idêntica ao FP16. ~1 byte por parâmetro. Boa opção se tiver VRAM sobrando.
- Q5_K_M: Excelente equilíbrio. ~0,65 bytes por parâmetro. Qualidade alta com menos memória.
- Q4_K_M (RECOMENDADO): O ponto ideal. ~0,5 bytes por parâmetro. Qualidade boa, tamanho menor.
- Q3_K_M: Menor tamanho, qualidade um pouco mais comprometida. Use só se VRAM for muito limitada.
- Q2_K: Mínimo absoluto. Qualidade bem degradada. Apenas para hardwares muito limitados.
Tabela Prática: VRAM por Tamanho de Modelo (Q4_K_M)
Estimativas usando Q4_K_M (padrão recomendado). Valores variam conforme contexto, KV cache e implementação:
- •Modelos 1B-3B: ~1-2 GB de VRAM (roda até em CPU puro, bem rápido)
- •Modelos 7B-8B: ~4-5 GB de VRAM
- •Modelos 13B-14B: ~8-9 GB de VRAM
- •Modelos 34B: ~18-22 GB de VRAM
- •Modelos 70B: ~38-42 GB de VRAM
- •Modelos 405B+: 200 GB+ de VRAM (multi-GPU ou CPU RAM)
Nota: Com FP16, os valores basicamente dobram.
💡 Q4_K_M é o sweet spot da comunidade em 2026: ~4x menos VRAM que FP16, com perda de qualidade mínima — geralmente imperceptível em uso prático.
Tiers de Hardware e o Que Geralmente Cabe
- 4 GB VRAM: Modelos 3B e menores em Q4. Ou CPU inference de modelos 7B.
- 8 GB VRAM: Modelos 7B-8B em Q4_K_M com folga. Modelos 13B podem caber em Q3.
- 12 GB VRAM: Modelos 13B-14B em Q4_K_M. Modelo 7B com contexto maior.
- 24 GB VRAM: Modelos até ~34B em Q4. Modelos 70B em CPU+GPU split.
- 48 GB+ VRAM: Modelos 70B inteiros em Q4. Modelos maiores com quantização.
- Multi-GPU / CPU RAM: Para modelos 70B+ em FP16 ou modelos 405B+ — usar CPU RAM com llama.cpp.
E se eu só tiver RAM, sem GPU dedicada?
Boa notícia: você pode rodar modelos com RAM do sistema (sem GPU)! Fica mais lento, mas funciona. O llama.cpp roda em CPU puro — modelos 7B em Q4 geram de 2-10 tokens/segundo em CPUs modernas, que já dá pra usar.
Macs com Apple Silicon (M1/M2/M3/M4) são exceção especial: a memória unificada funciona como VRAM, então um chip M2 com 16 GB de RAM consegue rodar modelos 13B com velocidade muito boa.
Ferramentas Para Rodar LLMs Localmente
As três principais ferramentas em 2026:
🦙 Ollama: Mais fácil para iniciantes. Um comando instala e baixa modelos automaticamente. Tem API local compatível com OpenAI.
⚙️ llama.cpp: O motor que roda por baixo de tudo. Mais controle, suporta CPU+GPU split, ideal para extrair o máximo do hardware.
🖥️ LM Studio: Interface gráfica amigável. Ótimo para quem prefere GUI. Baixa modelos do HuggingFace direto.
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



