Removendo texto do PDF
Eu estou procurando uma solução para remover / excluir todo o texto de um pdf. Eu tenho usado o iTextSharp por um tempo agora, e extrair o texto de um pdf com ele é fácil (sem o uso de OCR). No entanto, não consigo encontrar uma opção para excluir o texto.
Esta solução francamente não funciona para mim.
page.GetAsArray(PdfName.CONTENTS);
retorna null para mim, também ao usarPdfName.Text
e alguns outros que eu tentei.
A biblioteca para usar realmente não importa, eu só acho que iTextsharp deve ser capaz de fazer isso. No entanto, se houver outra solução (gratuita), traga-a
EDITAR:Só para deixar claro porque eu quero remover todo o texto dos pdfs
Eu quero reduzir o tamanho do pdf. Eu faço isso reduzindo a resolução das imagens no pdf. No entanto, em muitos casos, as imagens vetoriais ocupam a maior parte do espaço. Então eu pensei no seguinte: Remova todo o texto, em vez de converter o pdf restante (com apenas as imagens e vetores) para um bitmap (jpeg). Depois disso, colo o texto novamente. Outra opção seria tornar o texto invisível, mas não acho que isso seja mais fácil.