Использование PDFMiner (Python) с онлайн-файлами PDF. Кодировать URL?
Я хочу извлечь содержимое PDF-файлов, доступных онлайн, используяPDFMiner
.
Мой код основан на том, который доступен вдокументация используется для извлечения содержимого файлов PDF на жесткий диск:
# Open a PDF file.
fp = open('mypdf.pdf', 'rb')
# Create a PDF parser object associated with the file object.
parser = PDFParser(fp)
# Create a PDF document object that stores the document structure.
document = PDFDocument(parser)
Это работает довольно хорошо с некоторыми небольшими изменениями.
Теперь я попробовалurllib2.openurl
для онлайн PDF, но это не работает. Я получаю сообщение об ошибке:coercing to Unicode: need string or buffer, instance found
.
Как я могу получить строку (или что-то) отurllib2.openurl
так что это то же самое, чтоopen
работать, когда я даю ему имя файла PDF (вместо URL) `?
Пожалуйста, скажите мне, если мой вопрос не ясен.