Результаты поиска по запросу "tokenize"

3 ответа

Как индексировать таблицу postgres по имени, если имя может быть на любом языке?

3 ответа

C - Определение используемого разделителя - strtok ()

Позволять'скажи ям использую

2 ответа

Как использовать stringstream для разделения строк через запятую [duplicate]

На этот вопрос уже есть ответ: Как перебрать слова строки? [/questions/236129/how-do-i-iterate-over-the-words-of-a-string] 76 ответов У меня есть следующий код: std::string str = "abc def,ghi"; std::stringstream ss(str); string token; ...

ТОП публикаций

4 ответа

Базовый НЛП в CoffeeScript или JavaScript - Punkt tokenizaton, простые обученные модели Байеса - с чего начать? [закрыто]

Мой текущий проект веб-приложения требует немного НЛП: Токенизация текста в предложения через Punkt и т. П .;Разбивка более длинных предложений по подчиненному предложению (часто это запятые, кроме случаев, когда это не так)Байесовская модель, ...

3 ответа

Токенизация юникода с использованием nltk

У меня есть текстовые файлы, использующие кодировку utf-8 и содержащие такие символы, как 'ö', 'ü' и т. Д. Я хотел бы проанализировать текст этих файлов, но я не могу заставить токенайзер работать должным образом. Если я использую стандартный ...

1 ответ

Boost :: tokenizer разделенный запятой (c ++)

Ребята, вам должно быть легко ... Я играю с токенайзерами, использующими Boost, и хочу создать токен, разделенный запятыми. вот мой код: string s = "this is, , , a test"; boost::char_delimiters_separator<char> sep(","); ...

1 ответ

Генерация пользовательского Tokenizer для нового API TokenStream с использованием JFlex / Java CC

В настоящее время мы используем Lucene 2.3.2 и хотим перейти на 3.4.0. У нас есть свой собственный Tokenizer, сгенерированный с помощью Java CC, который используется с тех пор, как мы начали использовать Lucene, и мы хотим продолжать в том же ...

1 ответ

Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?

Я новичок в Solr.Я хочу знать, когда использоватьStandardTokenizerFactoryа также KeywordTokenizerFactory? Я читаю документы по Apache Wiki, но не получаю. Кто-нибудь может объяснитьРазница между StandardTokenizerFactory и KeywordTokenizerFactory?

1 ответ

@caf: ОК - это имеет смысл.

у разбить C-файл на токены не для компиляции, а для анализа. Я чувствую, что это должно быть довольно просто, и пытался искать онлайн для определенногоtokens.l (или что-то похожее) файл для flex со всей определенной грамматикой C, но ничего не ...

1 ответ

И версия Tokenizer:

ли простой способ, которым я мог бы использовать любой подкласс Lucene'sAnalyzer разбирать / маркироватьString? Что-то вроде: String to_be_parsed = "car window seven"; Analyzer analyzer = new StandardAnalyzer(...); List<String> tokenized_string ...