O agente está muito lento. Como acelerar?

Viewed 6

As respostas do meu agente estão demorando demais. O que posso ajustar?

1 Answers

Latência alta geralmente tem 4 causas. Em ordem de impacto:

1. Modelo pesado demais para a tarefa
claude-opus-4-7, gpt-5.4, o3 são 3-10x mais lentos que haiku/mini. Se sua pergunta é simples (FAQ, classificação, redação curta), troque para gpt-5-mini ou claude-haiku-4-5.

2. Base de conhecimento em 'Contexto completo'
Documentos gigantes sendo injetados a cada turno = tokens demais para processar. Troque para 'Busca focada (RAG)' clicando no item anexado. Isso faz retrieval seletivo em vez de injetar tudo.

3. Histórico de conversa longo
Conversas com 30+ turnos acumulam contexto gigante. Ao notar degradação, inicie uma nova conversa e, se necessário, peça um resumo da anterior para começar.

4. Reasoning tokens excessivos
Modelos com 'thinking' (o3, gpt-5, claude-opus) podem gastar vários milhares de tokens pensando antes de responder. Se velocidade importa mais que qualidade máxima, troque para o equivalente 'mini' ou 'haiku'.

Dicas adicionais:

  • Limite max_tokens se a resposta não precisa ser longa
  • Ative streaming (respostas aparecem progressivamente, melhora percepção)
  • Use cache semântico se perguntas repetem

📖 Documentação completa na Wiki: