Результаты поиска по запросу "tokenize"
C - Определение используемого разделителя - strtok ()
Позволять'скажи ям использую
Как использовать stringstream для разделения строк через запятую [duplicate]
На этот вопрос уже есть ответ: Как перебрать слова строки? [/questions/236129/how-do-i-iterate-over-the-words-of-a-string] 76 ответов У меня есть следующий код: std::string str = "abc def,ghi"; std::stringstream ss(str); string token; ...
Базовый НЛП в CoffeeScript или JavaScript - Punkt tokenizaton, простые обученные модели Байеса - с чего начать? [закрыто]
Мой текущий проект веб-приложения требует немного НЛП: Токенизация текста в предложения через Punkt и т. П .;Разбивка более длинных предложений по подчиненному предложению (часто это запятые, кроме случаев, когда это не так)Байесовская модель, ...
Токенизация юникода с использованием nltk
У меня есть текстовые файлы, использующие кодировку utf-8 и содержащие такие символы, как 'ö', 'ü' и т. Д. Я хотел бы проанализировать текст этих файлов, но я не могу заставить токенайзер работать должным образом. Если я использую стандартный ...
Boost :: tokenizer разделенный запятой (c ++)
Ребята, вам должно быть легко ... Я играю с токенайзерами, использующими Boost, и хочу создать токен, разделенный запятыми. вот мой код: string s = "this is, , , a test"; boost::char_delimiters_separator<char> sep(","); ...
Генерация пользовательского Tokenizer для нового API TokenStream с использованием JFlex / Java CC
В настоящее время мы используем Lucene 2.3.2 и хотим перейти на 3.4.0. У нас есть свой собственный Tokenizer, сгенерированный с помощью Java CC, который используется с тех пор, как мы начали использовать Lucene, и мы хотим продолжать в том же ...
Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?
Я новичок в Solr.Я хочу знать, когда использоватьStandardTokenizerFactoryа также KeywordTokenizerFactory? Я читаю документы по Apache Wiki, но не получаю. Кто-нибудь может объяснитьРазница между StandardTokenizerFactory и KeywordTokenizerFactory?
@caf: ОК - это имеет смысл.
у разбить C-файл на токены не для компиляции, а для анализа. Я чувствую, что это должно быть довольно просто, и пытался искать онлайн для определенногоtokens.l (или что-то похожее) файл для flex со всей определенной грамматикой C, но ничего не ...
И версия Tokenizer:
ли простой способ, которым я мог бы использовать любой подкласс Lucene'sAnalyzer разбирать / маркироватьString? Что-то вроде: String to_be_parsed = "car window seven"; Analyzer analyzer = new StandardAnalyzer(...); List<String> tokenized_string ...