Результаты поиска по запросу "text-extraction"

1 ответ

Вот демо

ичок в Python и был бы очень благодарен, если бы вы могли помочь мне с моей проблемой извлечения текста. Я хочу извлечь весь текст, который лежит между двумя выражениями в текстовом файле (начало и конец буквы). Как для начала, так и для конца ...

8 ответов

 это намного быстрее и захватывает весь текст из .doc, .docx и .pdf без форматирования. DocRipper использует Antiword, grep и pdftotext, чтобы захватить текст и вернуть его.

ибудь знает что-нибудь, что они могут порекомендовать, чтобы извлечь только простой текст из .doc или .docx? Я нашел этоЛучший способ извлечь текст из документа Word без использования COM ...

4 ответа

или же

я есть большой набор реального текста, из которого мне нужно вытащить слова для ввода в программу проверки орфографии. Я хотел бы извлечь как можно большезначимым Слова, насколько это возможно, без лишнего шума. Я знаю, что здесь много ...

ТОП публикаций

3 ответа

Используя GetPageText, можно также вернуть только текст, расположенный в этой области, или текст, расположенный в этой области, а также информацию о шрифте текста, такую как имя, цвет и размер.

ел бы извлечь текст из части (используя координаты) PDF, используя Ghostscript. Может кто-нибудь мне помочь?

2 ответа

извлечение определенных строк данных из нескольких текстовых файлов для преобразования в один CSV-файл

Во-первых, извиняюсь за мою плохую способность к кодированию, однако я потратил несколько часов, читая форумы и давая им трещину, поэтому я был бы очень признателен за любую помощь в решении следующей проблемы: У меня есть 3 текстовых файла, из ...

4 ответа

php: получить простой текст из html - simplehtmldom или php strip_tags?

Я смотрю на получение простого текста из HTML. Какой из них выбрать, php strip_tags [http://php.net/manual/en/function.strip-tags.php]или жеsimplehtmldom [http://simplehtmldom.sourceforge.net/]извлечение открытого текста? Одним из плюсов для ...

6 ответов

Использование кипера для извлечения неанглийских статей

Я пытаюсь использоватьboilerpipe [http://code.google.com/p/boilerpipe/] библиотека Java, чтобы извлечь новостные статьи из набора веб-сайтов. Он отлично работает для текстов на английском языке, но для текста со специальными символами, например, ...

2 ответа

Соскребание текста из файла в тегах HTML

У меня есть файл, из которого я хочу извлечь даты, это исходный файл HTML, так что он полон кода и фраз, которые мне не нужны. Мне нужно извлечь каждый экземпляр даты, который обернут в определенный тег HTML: abbr title = "((это текст, который ...

4 ответа

Извлечение номера и имени из строки [r]

POSIX Expression вызывает у меня головную боль. Допустим, у нас есть строка: a = "[question(37), question_pipe(\"Person10\")]"и в конечном итоге я хотел бы иметь возможность: b = c("37", "Person10")Я посмотрел наstringr пакет, но не могу ...

8 ответов

Извлечение текста из HTML Java

Я работаю над программой, которая загружает HTML-страницы, затем выбирает некоторую информацию и записывает ее в другой файл. Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код ...