GPU Mínima para RAG Local com 20k Documentos
Embedding + LLM rodando simultaneamente com budget de R$8k — o guia completo
Preparei isso pra você, @ysinstitute!
Espero que esse conteúdo te ajude, YS Institute! Se tiver dúvidas, me chama no X.
Ver tweet originalOuça a narração completa
Fala, @ysinstitute! Pergunta técnica excelente — e a resposta depende de entender como embedding e LLM usam VRAM de formas muito diferentes. Vou detalhar tudo aqui. 🎖️
📌 TL;DR: RTX 4060 Ti 16GB (~R$5.900) é a escolha ideal para esse caso. Roda embedding + LLM 8B simultâneo com margem pra crescer. Cabe no budget de R$8k.
Por que VRAM é o gargalo (e não a GPU em si)
Quando você roda RAG local, dois modelos precisam estar carregados na VRAM ao mesmo tempo:
1. Embedding model — transforma seus documentos em vetores. Ex: nomic-embed, all-MiniLM-L6-v2
2. LLM — responde as perguntas usando os trechos recuperados pelo embedding
O embedding model é minúsculo: o all-MiniLM-L6-v2 tem 22.7M parâmetros e usa apenas ~43MB de VRAM. Mesmo o nomic-embed-text (137M params) usa menos de 300MB.
O gargalo é o LLM. A regra geral: FP16 = 2GB por bilhão de parâmetros. Q4 quantizado = ~0.7GB por bilhão.
Quanto VRAM você precisa para 20k docs?
Com 20k documentos de 1-5 páginas, o processo de indexação (embedding) é uma operação offline que você faz uma vez e salva num vector store (Qdrant, Chroma, FAISS).
Em produção, o embedding model só é chamado para embeddar a query do usuário — uma operação de ~50ms.
Portanto, em runtime você precisa:
- •Embedding model em VRAM: ~50-300MB (irrelevante)
- •LLM em VRAM: o grosso do consumo
- •KV Cache (contexto): depende do context window
Para RAG com documentos recuperados (top-5 chunks de ~512 tokens cada), contexto médio é 3-5k tokens. Confortável.
Opções de GPU dentro de R$8k (Brasil, março 2026)
- 🟡 RTX 4060 (8GB VRAM) — R$1.900-2.700 | Roda LLMs até 7B Q4 (5.5GB). Funciona mas sem margem
- 🟢 RTX 3060 (12GB VRAM) — R$2.000-3.000 | Roda LLMs até 13B Q4. Custo-benefício excelente
- 🏆 RTX 4060 Ti 16GB VRAM — R$5.859-6.599 | Roda LLMs até 13B Q8 ou 20B Q4. RECOMENDAÇÃO
- 🔵 RTX 5060 (8GB GDDR7) — R$2.800-3.500 estimado | Mais rápido que 4060 mas mesma limitação 8GB
⚠️ RTX 4060 TEM APENAS 8GB — igual à RTX 5060. Para RAG sério, 8GB é suficiente só com modelos 7B Q4. A RTX 4060 Ti 16GB é tecnicamente diferente e oferece o dobro de VRAM pelo mesmo nome de família.
Qual LLM usar no RAG com esse hardware?
Com uma RTX 4060 Ti 16GB (recomendação), você pode rodar:
Ótimos para RAG em PT-BR:
- •Llama 4 Scout 8B Q8 (~9GB) — excelente raciocínio, cabe fácil
- •Qwen3 8B Q8 (~9GB) — melhor em PT-BR, multilingual nativo
- •Gemma 3 12B Q4_K_M (~8GB) — Google, qualidade alta
- •Mistral 7B Q8 (~8GB) — rápido e preciso
Stack de RAG recomendado:
- •Ollama (servidor local de LLM)
- •nomic-embed-text (embedding, 300MB)
- •Qdrant ou Chroma (vector store, roda em CPU/RAM)
- •LangChain ou LlamaIndex (orquestração)
Com 16GB você roda embedding + LLM 8B simultaneamente sem swap. Perfeito.
Configuração completa dentro de R$8k
Para um setup completo de RAG local com budget de R$8k, além da GPU você precisa de RAM suficiente (o vector store roda em RAM):
GPU: RTX 4060 Ti 16GB — ~R$5.900
RAM: 32GB DDR4/DDR5 (se não tiver) — ~R$400-600
SSD: 1TB NVMe (para modelos e vector store) — ~R$250-350
Total: ~R$6.500-7.000 (sobra margem no budget)
Se já tem PC e só precisa da GPU: RTX 4060 Ti 16GB resolve por ~R$5.900.
Alternativa mais barata: RTX 3060 12GB (~R$2.500) funciona bem para LLMs 7-13B Q4, com menos velocidade de inferência. Economiza ~R$3.000.
Performance esperada (tokens/segundo)
Com RTX 4060 Ti 16GB rodando Ollama:
- •Llama 3.1 8B Q4: ~35-50 tok/s
- •Llama 3.1 8B Q8: ~25-35 tok/s
- •Qwen3 8B Q4: ~40-55 tok/s
- •Gemma 3 12B Q4: ~20-30 tok/s
Para RAG de documentos (não streaming interativo), velocidade de 25-50 tok/s é mais que suficiente para responder perguntas sobre 20k docs em 2-5 segundos.
Com RTX 3060 12GB, espere 60-70% dessas velocidades (arquitetura mais antiga, menos CUDA cores).
💡 Dica profissional: o vector store (Qdrant, Chroma) NÃO precisa de VRAM — roda em RAM normal. Com 20k docs de 1-5 páginas (~10M tokens no total), o índice vetorial vai ocupar ~2-4GB de RAM. 32GB de RAM é ideal.
Stack completo open-source para RAG local PT-BR
- Ollama — servidor de LLM local (suporte CUDA automático)
- nomic-embed-text — embedding model compacto e preciso em PT-BR
- Qdrant — vector store leve, roda em Docker, API REST
- LangChain ou LlamaIndex — orquestração RAG
- Open WebUI — interface web para conversar com o RAG (opcional)
Por que não RTX 5060?
A RTX 5060 (Blackwell, lançada maio 2025) tem GDDR7 mais rápido mas ainda apenas 8GB de VRAM — mesma limitação da 4060. Ela é mais eficiente para gaming, mas para RAG local onde o gargalo é VRAM disponível, 8GB ainda restringe você a LLMs 7B Q4.
Para RAG profissional com 20k docs em produção, 8GB é arriscado — qualquer upgrade de modelo ou aumento no context window vai causar out-of-memory.
Veredicto: RTX 4060 Ti 16GB > RTX 5060 8GB para RAG local.
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



