Результаты поиска по запросу "tokenize"
это приводит к
ти уверен, что это простой вопрос, и я видел, что он задавался раньше, просто нет четких ответов. У меня есть несколько файлов свойств, которые используются для разных сред, например, xxxx-dev, xxxx-test, xxxx-live Файлы свойств содержат что-то ...
токенизировать строку, сохраняя разделители в Python
Есть ли эквивалентstr.split в Python, который также возвращает разделители? Мне нужно сохранить макет пробелов для вывода после обработки некоторых токенов. Пример: >>> s="\tthis is an example" >>> print s.split() ['this', 'is', 'an', ...
Токенизируйте, удаляйте стоп-слова, используя Lucene с Java
Я пытаюсь токенизировать и удалить стоп-слова из текстового файла с Lucene. У меня есть это: public String removeStopWords(String string) throws IOException { Set<String> stopWords = new HashSet<String>(); stopWords.add("a"); ...
Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?
Я новичок в Solr.Я хочу знать, когда использоватьStandardTokenizerFactoryа также KeywordTokenizerFactory? Я читаю документы по Apache Wiki, но не получаю. Кто-нибудь может объяснитьРазница между StandardTokenizerFactory и KeywordTokenizerFactory?
C - Определение используемого разделителя - strtok ()
Позволять'скажи ям использую
Разбить столбец на несколько строк
У меня есть таблица со столбцом, который содержит несколько значений, разделенных запятой (,), и я хотел бы разделить его, чтобы я получил earch Site в отдел...
Разрыв слова в языках без пробелов между словами (например, азиатский)?
Я бы хотел, чтобы полнотекстовый поиск MySQL работал с текстом на японском и китайском, а также на любом другом языке. Проблема заключается в том, что эти языки и, возможно, другие языки обычно не имеют пробелов между словами. Поиск бесполезен, ...
получить индексы исходного текста из nltk word_tokenize
Я токенизирую текст, используя nltk.word_tokenize, и я хотел бы также получить индекс в исходном необработанном тексте по первому символу каждого токена, т.е.