Ouvi falar de cache semântico. Como funciona e como ativar?
Ouvi falar de cache semântico. Como funciona e como ativar?
Cache semântico serve respostas do cache quando perguntas similares já foram respondidas antes.
Como funciona:
Nova pergunta → [vetoriza] → Busca no cache por similaridade
├─ Achou > 95% similar → retorna resposta cacheada (custo ~0)
└─ Não achou → chama modelo → armazena no cache
Onde mais rende:
| Caso | Taxa de hit | Economia |
|---|---|---|
| FAQ chatbot | 60-85% | Muito alta |
| Atendimento N1 | 20-40% | Significativa |
| Agente pesquisa livre | 5-15% | Modesta |
| Agente criativo | ~0% | Nenhuma (cada interação é única) |
Configuração em Admin → FinOps → Cache:
Cuidado: não cacheie respostas personalizadas (com dados do usuário) — use isolamento por usuário.
📖 Documentação completa na Wiki: