это намного быстрее и захватывает весь текст из .doc, .docx и .pdf без форматирования. DocRipper использует Antiword, grep и pdftotext, чтобы захватить текст и вернуть его.

ибудь знает что-нибудь, что они могут порекомендовать, чтобы извлечь только простой текст из .doc или .docx?

Я нашел этоЛучший способ извлечь текст из документа Word без использования COM / автоматизации? - Интересно, были ли еще какие-нибудь предложения?

Скорость не имеет решающего значения, и мы могли бы даже использовать веб-сайт с некоторым API для загрузки и извлечения файлов, но я не смог его найти.

Спасибо

Ответы на вопрос(8)

Ваш ответ на вопрос