Результаты поиска по запросу "tokenize"

1 ответ

это приводит к

ти уверен, что это простой вопрос, и я видел, что он задавался раньше, просто нет четких ответов. У меня есть несколько файлов свойств, которые используются для разных сред, например, xxxx-dev, xxxx-test, xxxx-live Файлы свойств содержат что-то ...

3 ответа

Заполнение нескольких символов пробелом - python

В

5 ответов

токенизировать строку, сохраняя разделители в Python

Есть ли эквивалентstr.split в Python, который также возвращает разделители? Мне нужно сохранить макет пробелов для вывода после обработки некоторых токенов. Пример: >>> s="\tthis is an example" >>> print s.split() ['this', 'is', 'an', ...

ТОП публикаций

2 ответа

какой токенизатор лучше использовать с nltk

2 ответа

Токенизируйте, удаляйте стоп-слова, используя Lucene с Java

Я пытаюсь токенизировать и удалить стоп-слова из текстового файла с Lucene. У меня есть это: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a"); ...

1 ответ

Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?

Я новичок в Solr.Я хочу знать, когда использоватьStandardTokenizerFactoryа также KeywordTokenizerFactory? Я читаю документы по Apache Wiki, но не получаю. Кто-нибудь может объяснитьРазница между StandardTokenizerFactory и KeywordTokenizerFactory?

3 ответа

C - Определение используемого разделителя - strtok ()

Позволять&#39;скажи ям использую

4 ответа

Разбить столбец на несколько строк

У меня есть таблица со столбцом, который содержит несколько значений, разделенных запятой (,), и я хотел бы разделить его, чтобы я получил earch Site в отдел...

2 ответа

Разрыв слова в языках без пробелов между словами (например, азиатский)?

Я бы хотел, чтобы полнотекстовый поиск MySQL работал с текстом на японском и китайском, а также на любом другом языке. Проблема заключается в том, что эти языки и, возможно, другие языки обычно не имеют пробелов между словами. Поиск бесполезен, ...

2 ответа

получить индексы исходного текста из nltk word_tokenize

Я токенизирую текст, используя nltk.word_tokenize, и я хотел бы также получить индекс в исходном необработанном тексте по первому символу каждого токена, т.е.