#vllm#llama-cpp#moe#cpu-offload#polarquant#qwopus#local-inference#rtx-a4000

vLLM + CPU Offload em MoE: Por Que Quebra e Como Resolver

Guia tecnico pra rodar Qwopus-MoE-35B (ou qualquer MoE grande) em GPU pequena com RAM de sobra

por Caio Explica

•09 de abril de 2026

👋

Preparei isso pra você, @edgaraveloso!

Espero que esse conteúdo te ajude, Edgar Veloso! Se tiver dúvidas, me chama no X.

Ecossistema

Conheça os produtos do Caio Vicentino

Aprenda DeFi do zero ao avançado

Construa o futuro com IA

Alpha exclusivo + comunidade ativa

09 de abril de 2026