As respostas do meu agente estão demorando demais. O que posso ajustar?
As respostas do meu agente estão demorando demais. O que posso ajustar?
Latência alta geralmente tem 4 causas. Em ordem de impacto:
1. Modelo pesado demais para a tarefa
claude-opus-4-7, gpt-5.4, o3 são 3-10x mais lentos que haiku/mini. Se sua pergunta é simples (FAQ, classificação, redação curta), troque para gpt-5-mini ou claude-haiku-4-5.
2. Base de conhecimento em 'Contexto completo'
Documentos gigantes sendo injetados a cada turno = tokens demais para processar. Troque para 'Busca focada (RAG)' clicando no item anexado. Isso faz retrieval seletivo em vez de injetar tudo.
3. Histórico de conversa longo
Conversas com 30+ turnos acumulam contexto gigante. Ao notar degradação, inicie uma nova conversa e, se necessário, peça um resumo da anterior para começar.
4. Reasoning tokens excessivos
Modelos com 'thinking' (o3, gpt-5, claude-opus) podem gastar vários milhares de tokens pensando antes de responder. Se velocidade importa mais que qualidade máxima, troque para o equivalente 'mini' ou 'haiku'.
Dicas adicionais:
max_tokens se a resposta não precisa ser longa📖 Documentação completa na Wiki: