Voltar
#ia-local#amd#ollama#llm#hardware#rocm

Quais Modelos de IA Rodam na AMD 9070 XT 16GB?

Guia completo para rodar LLMs locais com RDNA4 + ROCm + Ollama

por Caio Explica
👋

Preparei isso pra você, @spi_jl!

Espero que esse conteúdo te ajude, spi_jl! Se tiver dúvidas, me chama no X.

Ver tweet original
0:00
0:00

Ouça a narração completa

Fala! Sua setup é top — 9800X3D + 9070 XT 16GB + 32GB RAM é uma das melhores configurações para IA local em 2026. Preparei um guia completo com os modelos certos pra você.

🔥 AMD RX 9070 XT: 16GB GDDR6 VRAM, 128 AI Accelerators, RDNA 4 — ROCm 7.2+ suportado oficialmente pelo Ollama!

Por que a 9070 XT é boa para IA local?

A RX 9070 XT foi lançada em março de 2025 com arquitetura RDNA 4. A AMD atualizou o ROCm para suporte oficial à série RX 9000 em maio de 2025, e o Ollama lista a 9070 XT como placa suportada nativamente. Com 16GB de VRAM você tem vantagem real sobre as RTX 4070 Super (12GB) e até rivaliza com a RTX 4080 (16GB) em tamanho de modelos. O 9800X3D + 32GB RAM complementa perfeito pra quando precisar fazer offload parcial.

Modelos que cabem 100% na VRAM (16GB)

Com 16GB de VRAM você roda esses modelos COMPLETAMENTE na GPU, sem offload pra RAM:

  • Llama 3.3 70B Q4_K_M (~40GB) → NÃO cabe inteiro, mas com Q2_K (~20GB) quase entra
  • Llama 3.1 8B Q8 (~8.5GB) → ✅ Roda fluido, qualidade excelente
  • Qwen3 14B Q4_K_M (~8GB) → ✅ Melhor custo-benefício hoje
  • Qwen3 30B Q4_K_M (~16GB) → ✅ Cabe exato! Performance impressionante
  • DeepSeek-R1-Distill-Qwen-14B (~8GB) → ✅ Raciocínio avançado, muito bom
  • DeepSeek-R1-Distill-Llama-8B (~5GB) → ✅ Rápido e inteligente
  • Gemma 3 27B Q4_K_M (~14GB) → ✅ Google, multimodal, excelente
  • Mistral Small 3 22B Q4 (~12GB) → ✅ Velocidade + qualidade

⭐ Melhor escolha pra começar: Qwen3 30B Q4_K_M — cabe exato nos 16GB, raciocínio em cadeia nativo, português ótimo, coding top.

Modelos com offload parcial (16GB VRAM + 32GB RAM)

Seu 32GB RAM permite rodar modelos maiores com offload — ficam mais lentos mas funcionam:

  • Llama 3.3 70B Q4_K_M (~40GB) → ~60% na GPU, ~40% na RAM (lento mas funciona)
  • DeepSeek-R1 671B → Precisa de muito mais RAM, impraticável
  • Qwen3 72B Q4_K_M (~43GB) → Funciona com offload parcial

Para uso diário, foque nos modelos que cabem 100% na VRAM. A diferença de velocidade é brutal.

Como instalar e rodar (passo a passo)

  • Instalar ROCm 7.2+ (Linux) ou usar ROCm 6.4.4 no Windows com PyTorch
  • Instalar Ollama: curl -fsSL https://ollama.com/install.sh | sh
  • Baixar modelo: ollama pull qwen3:30b (ou o modelo escolhido)
  • Rodar: ollama run qwen3:30b
  • Verificar uso de VRAM: rocm-smi --showmemuse
  • Interface web opcional: instalar Open WebUI (docker run -p 3000:8080 ghcr.io/open-webui/open-webui)

Performance esperada (tokens/segundo)

Com a 9070 XT + ROCm + Ollama você deve ter:

  • Qwen3 14B Q4: ~45-60 tok/s (muito fluido para chat)
  • Qwen3 30B Q4: ~20-30 tok/s (bom para uso geral)
  • Llama 8B Q8: ~80-100 tok/s (extremamente rápido)
  • DeepSeek-R1 14B Q4: ~35-50 tok/s

O 9800X3D ajuda especialmente quando há offload para CPU — é o melhor chip para isso no mercado.

Linux vs Windows para IA local na AMD

Linux (recomendado): ROCm tem suporte completo e otimizado há mais tempo. Ollama funciona nativamente. Performance máxima.

Windows: ROCm 6.4.4 já tem suporte oficial com PyTorch desde 2025. Ollama funciona via ROCm no Windows. Alternativa: usar Vulkan (menor performance mas mais compatível).

Se você está no Windows e quer máxima performance, considere uma VM Linux ou dual boot. A diferença pode ser 20-30% em velocidade.

💡 Dica bônus: Instale o Open WebUI para ter uma interface ChatGPT-like 100% local. Funciona com Ollama e suporta todos os modelos listados acima.

Compartilhar
🎖️Criado pelo Major • Powered by AI