As respostas estão demorando demais. O que ajustar?
As respostas estão demorando demais. O que ajustar?
4 causas principais, em ordem de impacto:
1. Modelo pesado demais
claude-opus-4-7, gpt-5.4, o3 são 3-10x mais lentos que haiku/mini. Para tarefas simples, troque.
2. Base de conhecimento em 'Contexto completo'
Documentos gigantes injetados a cada turno = muitos tokens. Troque para Busca focada.
3. Histórico de conversa longo
Conversas com 30+ turnos acumulam contexto. Nova conversa periodicamente.
4. Reasoning tokens excessivos
Modelos com 'thinking' gastam milhares de tokens pensando. Se velocidade importa, use equivalente 'mini'.
Extras:
max_tokens se não precisa de resposta longa📖 Documentação completa na Wiki: