Voltar
#vllm#llama-cpp#moe#cpu-offload#polarquant#qwopus#local-inference#rtx-a4000

vLLM + CPU Offload em MoE: Por Que Quebra e Como Resolver

Guia tecnico pra rodar Qwopus-MoE-35B (ou qualquer MoE grande) em GPU pequena com RAM de sobra

por Caio Explica
👋

Preparei isso pra você, @edgaraveloso!

Espero que esse conteúdo te ajude, Edgar Veloso! Se tiver dúvidas, me chama no X.

Ver tweet original
Compartilhar
🎖️Criado pelo Major • Powered by AI