Все ли файлы PDF сжаты?

Таким образом, здесь есть некоторые темы о сжатии PDF, говорящие о том, что есть некоторая, но не большая, прибыль от сжатия PDF, так как PDF уже сжаты.

Мой вопрос: верно ли это для всех PDF-файлов, включая старую версию формата?

Кроме того, я уверен, что кто-то (возможно, идиот) может поместить растровые изображения в PDF, а не в JPEG и т. Д. Наша компания имеет много PDF-файлов в своих БД (возможно, в некоторых старых форматах). Мы рассматриваем возможность использования gzip для сжатия во время передачи, но не знаем, стоит ли это хлопот

Ответы на вопрос(2)

Вместо применения сжатия gzip вы получите гораздо больший выигрыш, используя утилиты PDF для применения сжатия к содержимому в формате, а также удаления таких вещей, как ненужные встроенные шрифты. Такие утилиты могут уменьшать выборку изображений и применять правильное сжатие изображений, которое будет гораздо более эффективным, чем gzip. JBIG2 может применяться к двухуровневым изображениям и является удивительно эффективным, а JPEG может применяться к естественным изображениям с уровнем качества, выбранным в соответствии с вашими потребностями. В Acrobat Pro вы можете использовать Advanced - & gt; Оптимизатор PDF, чтобы увидеть, где используется пространство и выборочно атаковать тех потребителей. Существует также общий документ - & gt; Уменьшите размер файла, чтобы автоматически применить эти сокращения.

Update:

Ответ Ika содержит ссылку на утилиту оптимизации PDF, которую можно использовать из Java. Вы можете посмотреть на ихобразец кода Java там, Этот код перечисляет именно то, что я упоминал:

Remove duplicated fonts, images, ICC profiles, and any other data stream. Optionally convert high-quality or print-ready PDF files to small, efficient and web-ready PDF. Optionally down-sample large images to a given resolution. Optionally compress or recompress PDF images using JBIG2 and JPEG2000 compression formats. Compress uncompressed streams and remove unused PDF objects.
 08 февр. 2019 г., 16:31
PDF 1.5, который включал JPEG2000, был представлен в апреле 2003 года. Пока ваш ридер поддерживает как минимум PDF 1.5, он будет работать.
 Rob McFeely13 мая 2012 г., 20:19
Я не знаком с утилитами PDF. Существует ли для этого JAVA API, поскольку любое используемое нами решение должно иметь API, чтобы мы могли автоматизировать процесс на наших серверах? Я знаю об Apache PDFbox, но не уверен, насколько он хорош для сжатия уже созданного PDF
 08 февр. 2019 г., 10:21
Хотел разобраться в проблемах с использованием JPEG2000 в PDF. Эта опция обычно не используется. Есть ли проблемы с рендерингом на некоторых устройствах?
Решение Вопроса

PDF-файлыin general использовать внутреннее сжатие для объектов, которые они содержат. Но это сжатие ни в коем случае не является обязательным в соответствии со спецификациями формата файла. Все (или некоторые) объекты могут выглядеть совершенно несжатыми, и они все равно будут создавать действительный PDF.

Существуют инструменты командной строки, которые способны распаковывать большинство (если не все) внутренних потоков объектов (даже самых современных версий PDF-файлов) - и новая, несжатая версия файла будет отображаться точно так же на экране или на бумаге (если напечатано).

Итак, чтобы ответить на ваш вопрос: Нет, вы не можете предполагать, что сжатие gzip добавляет только хлопот и никакой выгоды. Вы должны проверить это с типичным набором образцов ваших файлов. Просто скопируйте их и запишите время и сэкономленное место.

Это также зависит от типа программного обеспечения для создания PDF, которое использовалось ...

 23 июл. 2018 г., 14:29
@KurtPfeifle Вы говорите, что разделы текста в PDF - это "объекты", точно так же, как изображения и тому подобное? Это не ясно людям, не знакомым с тем, как формат работает за кулисами.
 06 июн. 2018 г., 19:09
@Stewart: встроенные шрифтыusually сжимаются (поскольку сами файлы шрифтов по умолчанию также сжимаются). См. Также ответ на вопрос «Как извлечь встроенные шрифты из PDF-файла как допустимые файлы шрифтов? ] (stackoverflow.com/a/3489099/359307) & Quot ;. Текстовый контент обычно внедряется так же, как и другой контент, и может быть сжат или не сжат, как описано в ответе ...
 06 июн. 2018 г., 12:30
Но сжимается ли текстовое содержимое? А как насчет встроенных шрифтов?
 24 июл. 2018 г., 23:21
@Steward: Да. :-)
 Rob McFeely11 мая 2012 г., 14:22
Спасибо Пипитас. Хороший ответ

Ваш ответ на вопрос