Voltar
#ia-local#rag#gpu#vram#hardware#llm#embedding#rtx-4060#tutorial#2026

GPU Mínima para RAG Local com 20k Documentos

Embedding + LLM rodando simultaneamente com budget de R$8k — o guia completo

por Caio Explica
👋

Preparei isso pra você, @ysinstitute!

Espero que esse conteúdo te ajude, YS Institute! Se tiver dúvidas, me chama no X.

Ver tweet original
0:00
0:00

Ouça a narração completa

Fala, @ysinstitute! Pergunta técnica excelente — e a resposta depende de entender como embedding e LLM usam VRAM de formas muito diferentes. Vou detalhar tudo aqui. 🎖️

📌 TL;DR: RTX 4060 Ti 16GB (~R$5.900) é a escolha ideal para esse caso. Roda embedding + LLM 8B simultâneo com margem pra crescer. Cabe no budget de R$8k.

Por que VRAM é o gargalo (e não a GPU em si)

Quando você roda RAG local, dois modelos precisam estar carregados na VRAM ao mesmo tempo:

1. Embedding model — transforma seus documentos em vetores. Ex: nomic-embed, all-MiniLM-L6-v2

2. LLM — responde as perguntas usando os trechos recuperados pelo embedding

O embedding model é minúsculo: o all-MiniLM-L6-v2 tem 22.7M parâmetros e usa apenas ~43MB de VRAM. Mesmo o nomic-embed-text (137M params) usa menos de 300MB.

O gargalo é o LLM. A regra geral: FP16 = 2GB por bilhão de parâmetros. Q4 quantizado = ~0.7GB por bilhão.

Quanto VRAM você precisa para 20k docs?

Com 20k documentos de 1-5 páginas, o processo de indexação (embedding) é uma operação offline que você faz uma vez e salva num vector store (Qdrant, Chroma, FAISS).

Em produção, o embedding model só é chamado para embeddar a query do usuário — uma operação de ~50ms.

Portanto, em runtime você precisa:

  • Embedding model em VRAM: ~50-300MB (irrelevante)
  • LLM em VRAM: o grosso do consumo
  • KV Cache (contexto): depende do context window

Para RAG com documentos recuperados (top-5 chunks de ~512 tokens cada), contexto médio é 3-5k tokens. Confortável.

Opções de GPU dentro de R$8k (Brasil, março 2026)

  • 🟡 RTX 4060 (8GB VRAM) — R$1.900-2.700 | Roda LLMs até 7B Q4 (5.5GB). Funciona mas sem margem
  • 🟢 RTX 3060 (12GB VRAM) — R$2.000-3.000 | Roda LLMs até 13B Q4. Custo-benefício excelente
  • 🏆 RTX 4060 Ti 16GB VRAM — R$5.859-6.599 | Roda LLMs até 13B Q8 ou 20B Q4. RECOMENDAÇÃO
  • 🔵 RTX 5060 (8GB GDDR7) — R$2.800-3.500 estimado | Mais rápido que 4060 mas mesma limitação 8GB

⚠️ RTX 4060 TEM APENAS 8GB — igual à RTX 5060. Para RAG sério, 8GB é suficiente só com modelos 7B Q4. A RTX 4060 Ti 16GB é tecnicamente diferente e oferece o dobro de VRAM pelo mesmo nome de família.

Qual LLM usar no RAG com esse hardware?

Com uma RTX 4060 Ti 16GB (recomendação), você pode rodar:

Ótimos para RAG em PT-BR:

  • Llama 4 Scout 8B Q8 (~9GB) — excelente raciocínio, cabe fácil
  • Qwen3 8B Q8 (~9GB) — melhor em PT-BR, multilingual nativo
  • Gemma 3 12B Q4_K_M (~8GB) — Google, qualidade alta
  • Mistral 7B Q8 (~8GB) — rápido e preciso

Stack de RAG recomendado:

  • Ollama (servidor local de LLM)
  • nomic-embed-text (embedding, 300MB)
  • Qdrant ou Chroma (vector store, roda em CPU/RAM)
  • LangChain ou LlamaIndex (orquestração)

Com 16GB você roda embedding + LLM 8B simultaneamente sem swap. Perfeito.

Configuração completa dentro de R$8k

Para um setup completo de RAG local com budget de R$8k, além da GPU você precisa de RAM suficiente (o vector store roda em RAM):

GPU: RTX 4060 Ti 16GB — ~R$5.900

RAM: 32GB DDR4/DDR5 (se não tiver) — ~R$400-600

SSD: 1TB NVMe (para modelos e vector store) — ~R$250-350

Total: ~R$6.500-7.000 (sobra margem no budget)

Se já tem PC e só precisa da GPU: RTX 4060 Ti 16GB resolve por ~R$5.900.

Alternativa mais barata: RTX 3060 12GB (~R$2.500) funciona bem para LLMs 7-13B Q4, com menos velocidade de inferência. Economiza ~R$3.000.

Performance esperada (tokens/segundo)

Com RTX 4060 Ti 16GB rodando Ollama:

  • Llama 3.1 8B Q4: ~35-50 tok/s
  • Llama 3.1 8B Q8: ~25-35 tok/s
  • Qwen3 8B Q4: ~40-55 tok/s
  • Gemma 3 12B Q4: ~20-30 tok/s

Para RAG de documentos (não streaming interativo), velocidade de 25-50 tok/s é mais que suficiente para responder perguntas sobre 20k docs em 2-5 segundos.

Com RTX 3060 12GB, espere 60-70% dessas velocidades (arquitetura mais antiga, menos CUDA cores).

💡 Dica profissional: o vector store (Qdrant, Chroma) NÃO precisa de VRAM — roda em RAM normal. Com 20k docs de 1-5 páginas (~10M tokens no total), o índice vetorial vai ocupar ~2-4GB de RAM. 32GB de RAM é ideal.

Stack completo open-source para RAG local PT-BR

  • Ollama — servidor de LLM local (suporte CUDA automático)
  • nomic-embed-text — embedding model compacto e preciso em PT-BR
  • Qdrant — vector store leve, roda em Docker, API REST
  • LangChain ou LlamaIndex — orquestração RAG
  • Open WebUI — interface web para conversar com o RAG (opcional)

Por que não RTX 5060?

A RTX 5060 (Blackwell, lançada maio 2025) tem GDDR7 mais rápido mas ainda apenas 8GB de VRAM — mesma limitação da 4060. Ela é mais eficiente para gaming, mas para RAG local onde o gargalo é VRAM disponível, 8GB ainda restringe você a LLMs 7B Q4.

Para RAG profissional com 20k docs em produção, 8GB é arriscado — qualquer upgrade de modelo ou aumento no context window vai causar out-of-memory.

Veredicto: RTX 4060 Ti 16GB > RTX 5060 8GB para RAG local.

Compartilhar
🎖️Criado pelo Major • Powered by AI