Meu agente tem custo por interação muito acima da média. O que investigar?
Meu agente tem custo por interação muito acima da média. O que investigar?
6 causas comuns:
1. Modelo superdimensionado
Se está usando opus/gpt-5.4/o3 para tarefas simples, troque para haiku/mini. Pode cortar custo 10x sem perder qualidade perceptível.
2. Prompt do sistema longo demais
Prompts acima de 2.000 tokens são enviados em TODA interação, multiplicando custo. Enxugue.
3. RAG em 'Contexto completo' de doc gigante
Injetar PDF de 100 páginas a cada pergunta é suicídio financeiro. Troque para busca focada.
4. Histórico de conversa acumulado
Conversas com 30+ turnos têm contexto enorme. Inicie nova conversa periodicamente.
5. Top-K do RAG alto demais
Se busca traz 20+ chunks por pergunta, reduza para 5-8.
6. Reasoning tokens (thinking models)
Modelos como o3, gpt-5, claude-opus gastam tokens pensando. Se a tarefa é simples, troque por modelo sem thinking.
Debug:
📖 Documentação completa na Wiki: