Tecnologia do CVS — RAG Híbrido, 5 Recuperadores em Paralelo, Fusão RRF e Abstenção

Ingestão

Um pipeline de ingestão em cinco etapas transforma um documento em evidência pesquisável.

O CVS se conecta diretamente onde o seu conhecimento já vive — SharePoint, Google Drive, Confluence, S3 e servidores de arquivos on-premise — e então faz o parsing de todos os formatos por meio de OCR triplo e visão computacional: PDFs, documentos escaneados, DOCX, PPTX, XLSX e imagens. Tabelas, figuras e âncoras de página sobrevivem intactas ao parsing, para que a evidência original possa ser devolvida depois, em vez de parafraseada e descartada.

O chunking inteligente produz fragmentos semanticamente coerentes em vez de divisões cegas de largura fixa. Cada fragmento é enriquecido com entidades, metadados, diffs de documentos e fatos temporais, e então gravado em um índice multicamada simultaneamente: um armazenamento pgvector para recuperação semântica, um índice de texto completo BM25F para termos exatos, um grafo de conhecimento temporal Neo4j para relações, além de índices de metadados e temporais. Uma única passagem, cinco superfícies de recuperação.

Conectores para SharePoint, Google Drive, Confluence, S3 e compartilhamentos de arquivos locais — sem migrações de copiar e colar
OCR triplo com enriquecimento por visão computacional em PDF, PDF escaneado, DOCX, PPTX, XLSX e imagens
Chunking semântico que preserva tabelas, figuras e âncoras de página como evidência de primeira classe
Indexação multicamada em pgvector, BM25F, grafo de conhecimento temporal Neo4j, metadados e armazenamentos temporais

**Um pipeline de ingestão em cinco etapas transforma um documento em evidência pesquisável..** O CVS se conecta diretamente onde o seu conhecimento já vive — SharePoint, Google Drive, Confluence, S3 e servidores de arquivos on-premise — e então faz o parsing de todos os formatos por meio de OCR triplo e visão computacional: PDFs, documentos escaneados, DOCX, PPTX, XLSX e imagens. Tabelas, figuras e âncoras de página sobrevivem intactas ao parsing, para que a evidência original possa ser devolvida depois, em vez de parafraseada e descartada.

Roteamento

Um roteador de intenção envia cada consulta pelo caminho mais barato capaz de respondê-la.

Nem toda pergunta merece uma execução completa de raciocínio. Um roteador de intenção central classifica cada consulta e a despacha para uma de quatro vias: um acerto de cache instantâneo, com zero tokens; uma busca híbrida rápida padrão; uma síntese profunda de múltiplos documentos; ou um caminho de raciocínio ultra que decompõe a pergunta em um grafo acíclico dirigido de subconsultas.

Essa cascata de economia de tokens significa que perguntas simples nunca acordam um LLM caro, enquanto perguntas genuinamente difíceis e multidocumento recebem o tratamento completo de decomposição. O resultado é latência previsível, custo previsível e nenhuma surpresa de tokens por consulta — a cascata sozinha reduz o gasto com LLM em 85–95% em comparação com o RAG ingênuo.

Via instantânea: cache de zero tokens para consultas repetidas e trivialmente respondíveis
Via padrão: busca híbrida rápida para a maioria das perguntas do dia a dia
Via profunda: síntese de múltiplos documentos quando uma única fonte não basta
Via ultra: DAG de decomposição que divide perguntas complexas em subetapas auditáveis

**Um roteador de intenção envia cada consulta pelo caminho mais barato capaz de respondê-la..** Nem toda pergunta merece uma execução completa de raciocínio. Um roteador de intenção central classifica cada consulta e a despacha para uma de quatro vias: um acerto de cache instantâneo, com zero tokens; uma busca híbrida rápida padrão; uma síntese profunda de múltiplos documentos; ou um caminho de raciocínio ultra que decompõe a pergunta em um grafo acíclico dirigido de subconsultas.

Recuperação

5 recuperadores em paralelo, fundidos por RRF, reordenados por um cross-encoder.

O CVS executa cinco recuperadores ao mesmo tempo — busca vetorial, travessia de grafo de conhecimento, texto completo BM25F, recuperação temporal e filtragem por metadados. Cada um enxerga o corpus de forma diferente, então capturam evidências distintas: semântica, relações, termos exatos, validade temporal e atributos estruturados. Nenhum recuperador isolado precisa ser perfeito.

Suas saídas ranqueadas são mescladas por meio do Reciprocal Rank Fusion (k=60), e então um cross-encoder reordena os candidatos fundidos para montar um conjunto de evidências enxuto para o construtor de respostas. É por isso que o CVS atinge 94,7% de precisão nas respostas, contra os 67–73% típicos de sistemas de recuperador único como o RAG básico ou o Copilot.

Vetorial (pgvector) + grafo de conhecimento Neo4j + BM25F + temporal + metadados, todos em paralelo
O Reciprocal Rank Fusion (k=60) mescla cinco rankings independentes em um único consenso
O reranking por cross-encoder refina o conjunto final de evidências antes da geração da resposta
94,7% de precisão nas respostas contra 67–73% de sistemas de recuperador único

**5 recuperadores em paralelo, fundidos por RRF, reordenados por um cross-encoder..** O CVS executa cinco recuperadores ao mesmo tempo — busca vetorial, travessia de grafo de conhecimento, texto completo BM25F, recuperação temporal e filtragem por metadados. Cada um enxerga o corpus de forma diferente, então capturam evidências distintas: semântica, relações, termos exatos, validade temporal e atributos estruturados. Nenhum recuperador isolado precisa ser perfeito.

Abstenção

Abstenção adversarial: o sistema sabe quando não sabe.

Após a recuperação, o CVS faz uma pergunta antes de responder: a evidência é suficiente? Se sim, ele responde com citações em linha e grava a interação em um log de auditoria à prova de adulteração. Se não, ele se abstém de forma clara em vez de fabricar uma resposta que apenas soa plausível — o único comportamento que mata a maioria dos pilotos de RAG corporativo.

Uma abstenção não é um beco sem saída. A pergunta sem resposta é roteada para o especialista designado no assunto, a resposta verificada dele é capturada e a base de conhecimento é corrigida para que a próxima pessoa receba uma resposta instantânea. Em produção, isso reduz a alucinação para menos de 2%, contra cerca de 19% do RAG comum.

O portão de confiança avalia a suficiência da evidência antes de gerar qualquer resposta
Evidência suficiente → resposta citada mais um registro completo no log de auditoria
Evidência insuficiente → abstenção clara e, em seguida, escalação para especialista
As respostas de especialistas capturadas corrigem a base — menos de 2% de alucinação contra ~19% do RAG comum

**Abstenção adversarial: o sistema sabe quando não sabe..** Após a recuperação, o CVS faz uma pergunta antes de responder: a evidência é suficiente? Se sim, ele responde com citações em linha e grava a interação em um log de auditoria à prova de adulteração. Se não, ele se abstém de forma clara em vez de fabricar uma resposta que apenas soa plausível — o único comportamento que mata a maioria dos pilotos de RAG corporativo.

Como um documento se torna uma resposta verificada e citável.

Um pipeline de ingestão em cinco etapas transforma um documento em evidência pesquisável.

Um roteador de intenção envia cada consulta pelo caminho mais barato capaz de respondê-la.

5 recuperadores em paralelo, fundidos por RRF, reordenados por um cross-encoder.

Abstenção adversarial: o sistema sabe quando não sabe.

Coloque o CVS à prova com sua pergunta mais difícil.