Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. Д.): Какая библиотека лучше? [закрыто]

Question

Dec 04, 2009, 06:28 PM

information-extraction text-extraction pdf parsing python

Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. Д.): Какая библиотека лучше? [закрыто]

Я ищу библиотеку PDF, которая позволит мне извлечь текст из документа PDF. Я посмотрел на PyPDF, и это может очень хорошо извлечь текст из документа PDF. Проблема заключается в том, что если в документе есть таблицы, текст в таблицах извлекается в соответствии с остальным текстом документа. Это может быть проблематично, потому что он создает фрагменты текста, которые бесполезны и выглядят искаженными (например, большое количество чисел смешано).

Я ищу что-то более продвинутое. Я хотел бы извлечь текст из документа PDF,без учета любые таблицы и специальное форматирование. Есть ли библиотека, которая делает это? Или я вынужден выполнить некоторую постобработку выходного текста, чтобы избавиться от этих разделов?

Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. Д.): Какая библиотека лучше? [закрыто]

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Расширенный анализ PDF с использованием Python (извлечение текста без таблиц и т. Д.): Какая библиотека лучше? [закрыто]

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы