#vllm#llama-cpp#moe#cpu-offload#polarquant#qwopus#local-inference#rtx-a4000
vLLM + CPU Offload em MoE: Por Que Quebra e Como Resolver
Guia tecnico pra rodar Qwopus-MoE-35B (ou qualquer MoE grande) em GPU pequena com RAM de sobra
por Caio Explica
•👋
Preparei isso pra você, @edgaraveloso!
Espero que esse conteúdo te ajude, Edgar Veloso! Se tiver dúvidas, me chama no X.
Ver tweet originalEcossistema
Quer ir mais fundo?
Conheça os produtos do Caio Vicentino
🎖️Criado pelo Major • Powered by AI•

