Removendo texto do PDF

Question

Oct 01, 2012, 03:24 PM

Removendo texto do PDF

Eu estou procurando uma solução para remover / excluir todo o texto de um pdf. Eu tenho usado o iTextSharp por um tempo agora, e extrair o texto de um pdf com ele é fácil (sem o uso de OCR). No entanto, não consigo encontrar uma opção para excluir o texto.

Esta solução francamente não funciona para mim.

    page.GetAsArray(PdfName.CONTENTS);

retorna null para mim, também ao usarPdfName.Text e alguns outros que eu tentei.

A biblioteca para usar realmente não importa, eu só acho que iTextsharp deve ser capaz de fazer isso. No entanto, se houver outra solução (gratuita), traga-a

EDITAR:Só para deixar claro porque eu quero remover todo o texto dos pdfs

Eu quero reduzir o tamanho do pdf. Eu faço isso reduzindo a resolução das imagens no pdf. No entanto, em muitos casos, as imagens vetoriais ocupam a maior parte do espaço. Então eu pensei no seguinte: Remova todo o texto, em vez de converter o pdf restante (com apenas as imagens e vetores) para um bitmap (jpeg). Depois disso, colo o texto novamente. Outra opção seria tornar o texto invisível, mas não acho que isso seja mais fácil.