Quais formatos de arquivo o RAG aceita?

Viewed 0

Quais tipos de documento posso subir para RAG?

1 Answers

Formatos suportados:

Documentos: PDF, DOCX, XLSX, PPTX, TXT, Markdown, HTML, CSV, JSON

Código-fonte: qualquer linguagem (Python, JS, Java, Go, etc.)

Imagens com OCR: PNG, JPG (para documentos escaneados)

Limites:

  • Tamanho por arquivo: tipicamente até 100 MB
  • Quantidade por coleção: sem limite rígido; >1000 arquivos pode ter latência maior
  • Coleções por organização: ilimitadas

Formatos que funcionam melhor:

  1. Markdown — estrutura clara, chunking ótimo
  2. DOCX com estilos (H1, H2, H3) — hierarquia preservada
  3. PDF nativo (não scan) — texto limpo
  4. CSV estruturado — tabelas bem formatadas

Evite:

  • Scans ilegíveis (faça OCR antes)
  • PDFs com senha
  • Documentos com headers/footers muito repetitivos (poluem embeddings)

📖 Documentação completa na Wiki:

Related