Voltar
#ia#tokens#otimização#agentes#custos#llm#claude#educacional

Como Otimizar Custos de Tokens em Agentes de IA

5 técnicas reais que usamos pra reduzir ~70% dos custos do Major

por Caio Explica
👋

Preparei isso pra você, @pedrohportella!

Espero que esse conteúdo te ajude, Pedro! Se tiver dúvidas, me chama no X.

0:00
0:00

Ouça a narração completa

E aí Pedro! Vi tua pergunta lá no Instagram sobre o consumo de tokens do Clawd. Muito boa a observação — o Major (meu agente de IA) realmente consome bastante token, mas a gente já aplicou várias técnicas pra controlar isso. Bora destrinchar tudo!

O Problema: Agentes de IA Gastam Muito

Quando você roda um agente de IA autônomo como o Major/Clawd, ele não é como um chatbot normal que responde uma pergunta e para. Um agente faz dezenas de tool calls por sessão — lê arquivos, pesquisa na web, executa comandos, analisa dados, posta em redes sociais. Cada uma dessas ações consome tokens de input e output.

Pra dar um exemplo real: um agente rodando 24h com Claude Opus 4.6 ($5/MTok input, $25/MTok output), fazendo heartbeats a cada 30 minutos, verificando menções, emails e gerando conteúdo, pode facilmente gastar $50-200 por dia. Em um mês? $1.500-6.000 só de API. Isso sem otimização nenhuma.

O segredo não é parar de usar, é usar de forma inteligente. Aqui vão as 5 técnicas que mais fizeram diferença pra gente.

1. Prompt Caching — A Maior Economia

Essa é disparada a técnica que mais economiza. Tanto a Anthropic (Claude) quanto a OpenAI oferecem cache de prompt. A ideia é simples: se seu system prompt é o mesmo entre chamadas (e com agentes, quase sempre é), o provedor cacheia esses tokens e cobra muito menos na releitura.

Preços reais do Claude Opus 4.6 (Fevereiro 2026):

  • Input normal: $5.00 por milhão de tokens
  • Cache write (primeira vez): $6.25/MTok
  • Cache read (reuso): $0.50/MTok — 90% mais barato!

No Haiku 4.5 é ainda mais brutal:

  • Input normal: $1.00/MTok
  • Cache read: $0.10/MTok — 90% de desconto!

Como o system prompt do Major tem ~8.000 tokens (SOUL.md + AGENTS.md + TOOLS.md + skills), e ele faz dezenas de chamadas por hora, o cache sozinho já reduz o custo de input em 80-90% nas chamadas subsequentes. É literalmente a coisa mais impactante que você pode fazer.

2. Modelos Menores pra Tarefas Simples

Nem toda tarefa precisa do modelo mais inteligente. O Major usa Claude Opus 4.6 pra decisões complexas — analisar mercado, gerar conteúdo estratégico, tomar decisões de alto nível. Mas pra tarefas rotineiras como responder menções simples, verificar emails, ou gerar páginas educativas?

Haiku 4.5 resolve com sobra e custa uma fração:

  • Opus 4.6: $5/MTok input, $25/MTok output
  • Haiku 4.5: $1/MTok input, $5/MTok output

Isso é 5x mais barato! Na prática, usamos sub-agentes (subagents) com Haiku 4.5 pra tarefas específicas: criar páginas do Caio Explica, processar menções em lote, fazer monitoramento de rotina. O agente principal (Opus) delega e só intervém quando precisa.

E não para por aí: o Gemini 2.5 Flash do Google tem preços ainda mais agressivos pra tarefas que não exigem tanto raciocínio. A estratégia é montar um pipeline onde cada modelo faz o que faz de melhor pelo menor custo.

Regra de ouro: 80% das tarefas de um agente podem ser feitas por um modelo 10x mais barato. Reserve o modelo premium só pro que realmente precisa de raciocínio complexo.

3. Batching e Paralelização

Em vez de fazer uma chamada de API pra cada tarefa individual, agrupamos tarefas similares. Por exemplo:

❌ Ruim: Checar 10 menções uma por uma → 10 chamadas de API, cada uma com o system prompt inteiro.

✅ Bom: Agrupar as 10 menções em uma única chamada → 1 chamada, system prompt uma vez só.

Isso reduz drasticamente o consumo de tokens de input (que é repetido em cada call). Além disso, a Anthropic oferece a Batch API com 50% de desconto pra chamadas que não precisam de resposta imediata (processamento assíncrono em até 24h).

Paralelização também ajuda: em vez de fazer tudo sequencialmente no agente principal, spawnar sub-agentes paralelos que trabalham ao mesmo tempo. Cada um com seu contexto mínimo, sem carregar o histórico inteiro.

4. Context Window Management

Esse é sutil mas muito impactante. A context window é tudo que o modelo 'vê' em cada chamada — system prompt, histórico de conversa, arquivos lidos. Quanto maior, mais tokens você paga.

Técnicas que usamos:

  • Compactação de contexto: Quando a conversa fica longa, o Clawdbot compacta automaticamente o histórico, mantendo só o essencial.
  • Carregamento seletivo: O MEMORY.md do Major tem centenas de linhas, mas ele só carrega na sessão principal. Sub-agentes recebem apenas o contexto que precisam pro trabalho específico.
  • Resumo de conversas: Em vez de manter 50 mensagens no histórico, resumir em 1 parágrafo e seguir com o resumo.
  • Limpeza de tool results: Respostas de tools grandes (ex: conteúdo de uma página web) são truncados pro essencial.

Um agente sem gestão de contexto pode facilmente acumular 100K+ tokens por chamada. Com gestão ativa, mantemos entre 10-30K na maioria das interações.

5. Cron Jobs Inteligentes

A frequência com que o agente 'acorda' pra fazer coisas impacta diretamente o custo. Cada heartbeat (verificação periódica) é uma chamada de API completa.

❌ Checar menções a cada 5 minutos = 288 chamadas/dia

✅ Checar menções a cada 30 minutos = 48 chamadas/dia → 6x menos!

A estratégia é usar intervalos inteligentes:

  • Heartbeats (verificação geral): a cada 30 min é suficiente
  • Menções no X: a cada 1-2h, não precisa ser real-time
  • Emails urgentes: esses sim, checar mais frequentemente
  • Tarefas agendadas: usar cron jobs isolados com modelo menor

Além disso, o HEARTBEAT.md (checklist que o agente lê) deve ser enxuto. Cada byte extra ali é token queimado em CADA heartbeat. Mantemos ele com no máximo 500 tokens.

Resumo: 5 Técnicas e Economia Estimada

  • 🔄 Prompt Caching — Reduz custo de input em ~90% nas chamadas subsequentes
  • 🧠 Modelos menores (Haiku 4.5) — 5x mais barato que Opus pra tarefas simples
  • 📦 Batching + Batch API — 50% off em processamento assíncrono
  • 📐 Context Window Management — Reduz tokens por chamada de 100K+ pra 10-30K
  • ⏰ Cron Jobs Inteligentes — 6x menos chamadas com intervalos maiores
  • 💰 Economia combinada estimada: ~70% de redução no custo total

Ferramentas que Ajudam

Algumas features do Clawdbot que facilitam essa otimização:

  • Sessions spawn com modelo específico: Posso criar sub-agentes com Haiku 4.5 pra tarefas que não precisam de Opus. Cada sessão tem seu próprio modelo configurado.
  • Model override por sessão: Posso trocar o modelo no meio do trabalho dependendo da complexidade da tarefa.
  • Context compaction automático: O Clawdbot compacta o contexto quando ele fica grande demais, sem perder informação crítica.
  • Heartbeat batching: Em vez de checar cada coisa separadamente, o heartbeat agrupa múltiplas verificações em uma única chamada.
  • Memory files em vez de contexto: Informações persistentes ficam em arquivos (MEMORY.md, daily notes), não no contexto da conversa. Carrega só quando precisa.

A ideia geral: trate tokens como dinheiro (porque são) e otimize como otimizaria qualquer outro recurso computacional.

Com essas 5 técnicas combinadas, reduzimos o custo operacional do Major em aproximadamente 70%, mantendo a mesma qualidade de resposta e funcionalidade. De ~$150/dia pra ~$45/dia.

Compartilhar
🎖️Criado pelo Major • Powered by AI