Результаты поиска по запросу "tokenize"
И версия Tokenizer:
ли простой способ, которым я мог бы использовать любой подкласс Lucene'sAnalyzer разбирать / маркироватьString? Что-то вроде: String to_be_parsed = "car window seven"; Analyzer analyzer = new StandardAnalyzer(...); List<String> tokenized_string ...
Мне пришлось реализовать токенизатор, но он требовал более сложного подхода, чем список кортежей, поэтому я реализовал класс для каждого токена. Затем вы можете вернуть список экземпляров классов или, если вы хотите сохранить ресурсы, вы можете вернуть что-то, реализующее интерфейс итератора, и сгенерировать следующий токен, пока вы будете выполнять синтаксический анализ.
ираюсь реализовать токенайзер в Python, и мне было интересно, не могли бы вы предложить какой-нибудь совет по стилю? Я реализовал токенизатор раньше в C и Java, поэтому я в порядке с теорией, я просто хотел бы убедиться, что я следую ...
@caf: ОК - это имеет смысл.
у разбить C-файл на токены не для компиляции, а для анализа. Я чувствую, что это должно быть довольно просто, и пытался искать онлайн для определенногоtokens.l (или что-то похожее) файл для flex со всей определенной грамматикой C, но ничего не ...
RACC доступен в виде стандартного модуля Ruby 1.8, поэтому я советую вам сосредоточиться на этом, даже если его руководство не очень простое и требует знакомства с yacc.
я есть эта строка: %{Children^10 Health "sanitation management"^5}И я хочу преобразовать это, чтобы токенизировать это в массив хэшей: [{:keywords=>"children", :boost=>10}, {:keywords=>"health", :boost=>nil}, {:keywords=>"sanitation ...
Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?
Я новичок в Solr.Я хочу знать, когда использоватьStandardTokenizerFactoryа также KeywordTokenizerFactory? Я читаю документы по Apache Wiki, но не получаю. Кто-нибудь может объяснитьРазница между StandardTokenizerFactory и KeywordTokenizerFactory?
Генерация пользовательского Tokenizer для нового API TokenStream с использованием JFlex / Java CC
В настоящее время мы используем Lucene 2.3.2 и хотим перейти на 3.4.0. У нас есть свой собственный Tokenizer, сгенерированный с помощью Java CC, который используется с тех пор, как мы начали использовать Lucene, и мы хотим продолжать в том же ...
Boost :: tokenizer разделенный запятой (c ++)
Ребята, вам должно быть легко ... Я играю с токенайзерами, использующими Boost, и хочу создать токен, разделенный запятыми. вот мой код: string s = "this is, , , a test"; boost::char_delimiters_separator<char> sep(","); ...
токенизация и преобразование в латинскую свинью
Это похоже на домашнее задание, но, пожалуйста, будьте уверены, что это не домашнее задание. Просто упражнение в книге, которую мы используем в нашем курсе C ++, я пытаюсь читать дальше по указателям .. Упражнение в книге говорит мне разбить ...
C Tokenizer (и он возвращается пустым, когда поля отсутствуют. Ууу!)
Смотрите также:Это хороший substr () для C? [https://stackoverflow.com/questions/874015/updated-is-this-a-good-substr-for-c] strtok() и друзья пропускают пустые поля, и я не знаю, как сказать, чтобы они не пропускали, а возвращали пустые в таких ...
Ошибка токенизации: java.util.regex.PatternSyntaxException, висячий метасимвол '*'
Я используюsplit() токенизировать строку, разделенную* следующий этот формат: name*lastName*ID*school*age % name*lastName*ID*school*age % name*lastName*ID*school*ageЯ читаю это из файла с именем "entrada.al", используя этот код: static void ...