Voltar
#ollama#ia#llm#vps#tutorial#hardware#self-hosted

Ollama: Quanto Espaço Ocupa e Dá pra Rodar em VPS?

Guia completo de requisitos de disco e RAM por modelo — e como escolher a VPS certa

por Caio Explica
👋

Preparei isso pra você, @danieltinoco!

Espero que esse conteúdo te ajude, Daniel! Se tiver dúvidas, me chama no X.

Ver tweet original
0:00
0:00

Ouça a narração completa

Fala, Daniel! Boa pergunta — essa dúvida é mais comum do que parece. Vou responder tudo aqui: quanto espaço ocupa, qual RAM você precisa, e sim, dá pra rodar em VPS!

O que é o Ollama?

O Ollama é uma ferramenta que permite rodar modelos de linguagem (LLMs) localmente, no seu próprio hardware — sem enviar dados pra nenhuma nuvem. É open source, roda no Linux, macOS e Windows, e tem suporte a dezenas de modelos como Llama 4, Mistral, Gemma, DeepSeek, Qwen e muito mais. A instalação base é pequena (~200MB), mas os modelos em si ocupam espaço de acordo com o tamanho e a quantização escolhida.

🗂️ A instalação do Ollama ocupa ~200MB. Os modelos ficam salvos em ~/.ollama/models/ — e é aí que o espaço cresce.

Quanto Espaço Cada Modelo Ocupa?

O tamanho do modelo depende de dois fatores: o número de parâmetros (B = bilhões) e a quantização (Q4 = mais comprimido, Q8 = mais preciso). Veja a tabela abaixo com os tamanhos mais comuns usando quantização Q4 (a mais usada no dia a dia):

📦 Tamanho dos Modelos (Quantização Q4)

  • 🟢 7B (ex: Llama 3.2, Mistral 7B, Gemma2 9B) → ~4–5 GB no disco
  • 🟡 13B (ex: Llama 2 13B, CodeLlama 13B) → ~8 GB no disco
  • 🟠 32B (ex: Qwen 2.5 32B, DeepSeek 32B) → ~20 GB no disco
  • 🔴 70B (ex: Llama 3.3 70B, Qwen 72B) → ~40 GB no disco
  • ⚫ 405B (ex: Llama 3.1 405B) → ~230 GB no disco — só em servidor dedicado!
  • 💡 Dica: Quantização Q8 dobra o tamanho. Q4 é o melhor custo-benefício.

Dá pra Rodar em VPS? SIM! Mas tem requisitos.

Aqui está a parte importante: o Ollama roda perfeitamente em VPS Linux. O ponto crítico não é CPU ou disco — é a RAM. O modelo precisa caber inteiro na memória RAM (ou VRAM se tiver GPU). Se a RAM for insuficiente, o modelo vai usar swap (disco como memória), o que é muito mais lento, mas ainda funciona para testes.

🖥️ VPS Mínima por Modelo

  • ✅ Modelos 7B (Llama 3.2, Mistral): 8GB RAM + 15GB disco — VPS a partir de $10–15/mês
  • ✅ Modelos 13B (Llama 2 13B): 16GB RAM + 20GB disco — VPS a partir de $20–30/mês
  • ⚠️ Modelos 32B (Qwen 32B, DeepSeek 32B): 32GB RAM + 30GB disco — VPS a partir de $60/mês
  • 🚨 Modelos 70B (Llama 3.3 70B): 64GB RAM + 50GB disco — VPS dedicada $150+/mês
  • 🚨 Modelos 405B: Só em bare metal com GPUs. Cloud API é mais viável.

💡 Regra prática: RAM necessária ≈ tamanho do modelo no disco + 2GB de folga para o sistema. Ex: modelo 7B (4GB) → mínimo 8GB RAM.

Como Instalar o Ollama na VPS

A instalação é simples — basta um comando no terminal da sua VPS Linux:

curl -fsSL https://ollama.com/install.sh | sh

Depois, para baixar e rodar um modelo:

ollama run llama3.2

O Ollama expõe uma API REST na porta 11434, que você pode usar para integrar com aplicações, n8n, automações, etc. Para expor externamente, configure um Nginx como reverse proxy com HTTPS.

🆚 VPS vs Hardware Próprio — Quando Usar Cada Um

  • ☁️ VPS: Ideal para testes, projetos pessoais, APIs internas, CI/CD com IA
  • ☁️ VPS: Sem investimento inicial, escala conforme necessidade
  • 🖥️ Hardware próprio: Melhor para dados sensíveis (empresa, saúde, jurídico)
  • 🖥️ Hardware próprio: Mais barato a longo prazo — uma GPU RTX 4090 (24GB VRAM) roda 13B com qualidade altíssima
  • 🖥️ Hardware próprio: Sem latência de rede, sem custo mensal recorrente
  • ⚡ Resumo: Começando → VPS. Uso intenso/dados sensíveis → hardware próprio.

🔒 Para uso empresarial com dados sensíveis (clientes, contratos, saúde), hardware próprio é sempre a melhor escolha. Seus dados nunca saem da sua infraestrutura.

Modelos Recomendados para Começar

Se você está começando com Ollama em VPS, minha recomendação é o Llama 3.2 (7B) ou Mistral 7B — ambos rodam bem em VPS com 8GB de RAM, têm ótima qualidade para tarefas cotidianas (resumos, código, chat), e ocupam ~4-5GB de disco. Para código, o DeepSeek Coder 7B é excelente. Para português, o Sabiá-3 (da Maritaca AI) é o melhor modelo nacional.

Compartilhar
🎖️Criado pelo Major • Powered by AI