Quais Modelos de IA Rodam na AMD 9070 XT 16GB?
Guia completo para rodar LLMs locais com RDNA4 + ROCm + Ollama
Preparei isso pra você, @spi_jl!
Espero que esse conteúdo te ajude, spi_jl! Se tiver dúvidas, me chama no X.
Ver tweet originalOuça a narração completa
Fala! Sua setup é top — 9800X3D + 9070 XT 16GB + 32GB RAM é uma das melhores configurações para IA local em 2026. Preparei um guia completo com os modelos certos pra você.
🔥 AMD RX 9070 XT: 16GB GDDR6 VRAM, 128 AI Accelerators, RDNA 4 — ROCm 7.2+ suportado oficialmente pelo Ollama!
Por que a 9070 XT é boa para IA local?
A RX 9070 XT foi lançada em março de 2025 com arquitetura RDNA 4. A AMD atualizou o ROCm para suporte oficial à série RX 9000 em maio de 2025, e o Ollama lista a 9070 XT como placa suportada nativamente. Com 16GB de VRAM você tem vantagem real sobre as RTX 4070 Super (12GB) e até rivaliza com a RTX 4080 (16GB) em tamanho de modelos. O 9800X3D + 32GB RAM complementa perfeito pra quando precisar fazer offload parcial.
Modelos que cabem 100% na VRAM (16GB)
Com 16GB de VRAM você roda esses modelos COMPLETAMENTE na GPU, sem offload pra RAM:
- •Llama 3.3 70B Q4_K_M (~40GB) → NÃO cabe inteiro, mas com Q2_K (~20GB) quase entra
- •Llama 3.1 8B Q8 (~8.5GB) → ✅ Roda fluido, qualidade excelente
- •Qwen3 14B Q4_K_M (~8GB) → ✅ Melhor custo-benefício hoje
- •Qwen3 30B Q4_K_M (~16GB) → ✅ Cabe exato! Performance impressionante
- •DeepSeek-R1-Distill-Qwen-14B (~8GB) → ✅ Raciocínio avançado, muito bom
- •DeepSeek-R1-Distill-Llama-8B (~5GB) → ✅ Rápido e inteligente
- •Gemma 3 27B Q4_K_M (~14GB) → ✅ Google, multimodal, excelente
- •Mistral Small 3 22B Q4 (~12GB) → ✅ Velocidade + qualidade
⭐ Melhor escolha pra começar: Qwen3 30B Q4_K_M — cabe exato nos 16GB, raciocínio em cadeia nativo, português ótimo, coding top.
Modelos com offload parcial (16GB VRAM + 32GB RAM)
Seu 32GB RAM permite rodar modelos maiores com offload — ficam mais lentos mas funcionam:
- •Llama 3.3 70B Q4_K_M (~40GB) → ~60% na GPU, ~40% na RAM (lento mas funciona)
- •DeepSeek-R1 671B → Precisa de muito mais RAM, impraticável
- •Qwen3 72B Q4_K_M (~43GB) → Funciona com offload parcial
Para uso diário, foque nos modelos que cabem 100% na VRAM. A diferença de velocidade é brutal.
Como instalar e rodar (passo a passo)
- Instalar ROCm 7.2+ (Linux) ou usar ROCm 6.4.4 no Windows com PyTorch
- Instalar Ollama: curl -fsSL https://ollama.com/install.sh | sh
- Baixar modelo: ollama pull qwen3:30b (ou o modelo escolhido)
- Rodar: ollama run qwen3:30b
- Verificar uso de VRAM: rocm-smi --showmemuse
- Interface web opcional: instalar Open WebUI (docker run -p 3000:8080 ghcr.io/open-webui/open-webui)
Performance esperada (tokens/segundo)
Com a 9070 XT + ROCm + Ollama você deve ter:
- •Qwen3 14B Q4: ~45-60 tok/s (muito fluido para chat)
- •Qwen3 30B Q4: ~20-30 tok/s (bom para uso geral)
- •Llama 8B Q8: ~80-100 tok/s (extremamente rápido)
- •DeepSeek-R1 14B Q4: ~35-50 tok/s
O 9800X3D ajuda especialmente quando há offload para CPU — é o melhor chip para isso no mercado.
Linux vs Windows para IA local na AMD
Linux (recomendado): ROCm tem suporte completo e otimizado há mais tempo. Ollama funciona nativamente. Performance máxima.
Windows: ROCm 6.4.4 já tem suporte oficial com PyTorch desde 2025. Ollama funciona via ROCm no Windows. Alternativa: usar Vulkan (menor performance mas mais compatível).
Se você está no Windows e quer máxima performance, considere uma VM Linux ou dual boot. A diferença pode ser 20-30% em velocidade.
💡 Dica bônus: Instale o Open WebUI para ter uma interface ChatGPT-like 100% local. Funciona com Ollama e suporta todos os modelos listados acima.
Ecossistema Caio Vicentino
Quer ir mais fundo?
← Deslize para ver mais →
Ecossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino



