O CVS é um motor de RAG híbrido construído para empresas que não toleram uma resposta errada dada com confiança. Cada etapa — ingestão, roteamento, recuperação e abstenção — é projetada para produzir evidências que você pode auditar, não prosa em que precisa confiar.
O CVS se conecta diretamente onde o seu conhecimento já vive — SharePoint, Google Drive, Confluence, S3 e servidores de arquivos on-premise — e então faz o parsing de todos os formatos por meio de OCR triplo e visão computacional: PDFs, documentos escaneados, DOCX, PPTX, XLSX e imagens. Tabelas, figuras e âncoras de página sobrevivem intactas ao parsing, para que a evidência original possa ser devolvida depois, em vez de parafraseada e descartada.
O chunking inteligente produz fragmentos semanticamente coerentes em vez de divisões cegas de largura fixa. Cada fragmento é enriquecido com entidades, metadados, diffs de documentos e fatos temporais, e então gravado em um índice multicamada simultaneamente: um armazenamento pgvector para recuperação semântica, um índice de texto completo BM25F para termos exatos, um grafo de conhecimento temporal Neo4j para relações, além de índices de metadados e temporais. Uma única passagem, cinco superfícies de recuperação.
Nem toda pergunta merece uma execução completa de raciocínio. Um roteador de intenção central classifica cada consulta e a despacha para uma de quatro vias: um acerto de cache instantâneo, com zero tokens; uma busca híbrida rápida padrão; uma síntese profunda de múltiplos documentos; ou um caminho de raciocínio ultra que decompõe a pergunta em um grafo acíclico dirigido de subconsultas.
Essa cascata de economia de tokens significa que perguntas simples nunca acordam um LLM caro, enquanto perguntas genuinamente difíceis e multidocumento recebem o tratamento completo de decomposição. O resultado é latência previsível, custo previsível e nenhuma surpresa de tokens por consulta — a cascata sozinha reduz o gasto com LLM em 85–95% em comparação com o RAG ingênuo.
O CVS executa cinco recuperadores ao mesmo tempo — busca vetorial, travessia de grafo de conhecimento, texto completo BM25F, recuperação temporal e filtragem por metadados. Cada um enxerga o corpus de forma diferente, então capturam evidências distintas: semântica, relações, termos exatos, validade temporal e atributos estruturados. Nenhum recuperador isolado precisa ser perfeito.
Suas saídas ranqueadas são mescladas por meio do Reciprocal Rank Fusion (k=60), e então um cross-encoder reordena os candidatos fundidos para montar um conjunto de evidências enxuto para o construtor de respostas. É por isso que o CVS atinge 94,7% de precisão nas respostas, contra os 67–73% típicos de sistemas de recuperador único como o RAG básico ou o Copilot.
Após a recuperação, o CVS faz uma pergunta antes de responder: a evidência é suficiente? Se sim, ele responde com citações em linha e grava a interação em um log de auditoria à prova de adulteração. Se não, ele se abstém de forma clara em vez de fabricar uma resposta que apenas soa plausível — o único comportamento que mata a maioria dos pilotos de RAG corporativo.
Uma abstenção não é um beco sem saída. A pergunta sem resposta é roteada para o especialista designado no assunto, a resposta verificada dele é capturada e a base de conhecimento é corrigida para que a próxima pessoa receba uma resposta instantânea. Em produção, isso reduz a alucinação para menos de 2%, contra cerca de 19% do RAG comum.
Traga sua especificação mais obscura ou sua consulta mais frequentemente escalada. Mostraremos o caminho da evidência de ponta a ponta — e exatamente o que acontece quando a base não sabe.