Como funciona o cache semântico?

Viewed 2

Ouvi falar de cache semântico. Como funciona e como ativar?

1 Answers

Cache semântico serve respostas do cache quando perguntas similares já foram respondidas antes.

Como funciona:

Nova pergunta → [vetoriza] → Busca no cache por similaridade
   ├─ Achou > 95% similar → retorna resposta cacheada (custo ~0)
   └─ Não achou → chama modelo → armazena no cache

Onde mais rende:

Caso Taxa de hit Economia
FAQ chatbot 60-85% Muito alta
Atendimento N1 20-40% Significativa
Agente pesquisa livre 5-15% Modesta
Agente criativo ~0% Nenhuma (cada interação é única)

Configuração em Admin → FinOps → Cache:

  • TTL por tipo de conteúdo:
    • FAQ: TTL longo (dias a semanas)
    • Consultas operacionais: TTL curto (horas)
    • Dados regulatórios: sem cache (sempre atualizado)
  • Threshold de similaridade (padrão 0.95)
  • Isolamento por organização — cache da empresa A nunca vai para empresa B

Cuidado: não cacheie respostas personalizadas (com dados do usuário) — use isolamento por usuário.

📖 Documentação completa na Wiki:

Related