Atualizacao

7 min

Atualizamos o PDF OCR: texto reconstruido dentro do layout e contadores corrigidos

Esta atualizacao fecha tres lacunas importantes do fluxo PDF: melhor reconstrução visual dentro das regioes em imagem, uma separacao mais clara entre PDF pesquisavel e PDF reorganizado, e contadores de uso que finalmente refletem o consumo real de usuarios autenticados.

Autor editorial: Equipe editorial ScanlumeRevisao: Revisao editorial ScanlumePublicado em 2026-04-03Revisado em 2026-04-03Metodo e evidencia
Fluxo atualizado de OCR para PDF com reconstrução de layout
O novo fluxo de PDF parte do OCR por regiao e tenta devolver texto reconstruido dentro do espaco original, em vez de depender apenas de uma camada escondida de busca.

Insight

O que mudou no PDF pesquisavel

Antes, o PDF pesquisavel podia parecer apenas um arquivo com texto escondido anexado sobre a pagina. Isso ajudava na busca, mas nao explicava bem onde o OCR realmente encaixava dentro da imagem original.

Agora o fluxo trata cada regiao em imagem como uma area de layout. O OCR estruturado gera blocos formatados e o export tenta reencaixar esse texto dentro do mesmo espaco visual, mantendo o documento mais proximo do PDF original.

Insight

Como `PDF reorganizado` ficou diferente

O objetivo do PDF reorganizado continua sendo leitura melhor, mas ele deixa de ser um simples texto corrido. Em vez disso, passa a preservar agrupamentos por pagina e regiao, reconstruindo blocos com mais contexto visual.

Na pratica, isso significa que o arquivo continua mais limpo do que o original, mas sem perder tanto a nocao de onde cada bloco fazia parte do layout do PDF base.

Insight

Por que PDF continua no modo Texto formatado

PDF exige muito mais do que extrair texto puro. Mesmo quando ha texto nativo, o produto ainda precisa decidir quais paginas usar direto, quais regioes enviar para OCR e como devolver isso em um formato utilizavel depois.

Por isso PDFs ficam restritos a `Texto formatado`. `OCR simples` continua reservado para imagens, onde a proposta e velocidade e texto bruto, sem reconstruir estrutura e layout.

  • OCR simples: imagens apenas.
  • Texto formatado: imagens e PDF.
  • PDF pesquisavel e PDF reorganizado saem do fluxo PDF formatado.

Insight

O que corrigimos nos limites para usuarios logados

Outra mudanca importante foi na experiencia de conta. O workspace e os componentes de conta agora voltam a buscar os limites depois de um OCR bem-sucedido, reduzindo a chance de mostrar creditos antigos na tela apos o consumo real ter mudado.

Isso vale especialmente para quem testa repetidamente OCR em imagem e PDF no mesmo dia e precisa confiar nos contadores para entender quanto ainda resta no plano atual.

FAQ

Perguntas rapidas que aparecem depois do OCR.

O objetivo aqui e reduzir a distancia entre o benchmark, a exportacao e o uso real do texto.

O PDF pesquisavel agora fica identico ao original?

Nao de forma absoluta. A nova versao tenta reconstruir melhor o texto dentro das regioes em imagem, mas ainda trabalha com heuristicas e prioriza caber no espaco original antes de buscar fidelidade tipografica perfeita.

Quando usar PDF reorganizado em vez de PDF pesquisavel?

Use PDF pesquisavel quando quiser manter a pagina mais proxima do original. Use PDF reorganizado quando a prioridade for leitura e reaproveitamento, mesmo que o arquivo final fique mais editorial do que o PDF base.