Результаты поиска по запросу "tokenize"

1 ответ

И версия Tokenizer:

ли простой способ, которым я мог бы использовать любой подкласс Lucene'sAnalyzer разбирать / маркироватьString? Что-то вроде: String to_be_parsed = "car window seven"; Analyzer analyzer = new StandardAnalyzer(...); List<String> tokenized_string ...

12 ответов

Мне пришлось реализовать токенизатор, но он требовал более сложного подхода, чем список кортежей, поэтому я реализовал класс для каждого токена. Затем вы можете вернуть список экземпляров классов или, если вы хотите сохранить ресурсы, вы можете вернуть что-то, реализующее интерфейс итератора, и сгенерировать следующий токен, пока вы будете выполнять синтаксический анализ.

ираюсь реализовать токенайзер в Python, и мне было интересно, не могли бы вы предложить какой-нибудь совет по стилю? Я реализовал токенизатор раньше в C и Java, поэтому я в порядке с теорией, я просто хотел бы убедиться, что я следую ...

1 ответ

@caf: ОК - это имеет смысл.

у разбить C-файл на токены не для компиляции, а для анализа. Я чувствую, что это должно быть довольно просто, и пытался искать онлайн для определенногоtokens.l (или что-то похожее) файл для flex со всей определенной грамматикой C, но ничего не ...

ТОП публикаций

3 ответа

RACC доступен в виде стандартного модуля Ruby 1.8, поэтому я советую вам сосредоточиться на этом, даже если его руководство не очень простое и требует знакомства с yacc.

я есть эта строка: %{Children^10 Health "sanitation management"^5}И я хочу преобразовать это, чтобы токенизировать это в массив хэшей: [{:keywords=>"children", :boost=>10}, {:keywords=>"health", :boost=>nil}, {:keywords=>"sanitation ...

1 ответ

Разница между StandardTokenizerFactory и KeywordTokenizerFactory в Solr?

Я новичок в Solr.Я хочу знать, когда использоватьStandardTokenizerFactoryа также KeywordTokenizerFactory? Я читаю документы по Apache Wiki, но не получаю. Кто-нибудь может объяснитьРазница между StandardTokenizerFactory и KeywordTokenizerFactory?

1 ответ

Генерация пользовательского Tokenizer для нового API TokenStream с использованием JFlex / Java CC

В настоящее время мы используем Lucene 2.3.2 и хотим перейти на 3.4.0. У нас есть свой собственный Tokenizer, сгенерированный с помощью Java CC, который используется с тех пор, как мы начали использовать Lucene, и мы хотим продолжать в том же ...

1 ответ

Boost :: tokenizer разделенный запятой (c ++)

Ребята, вам должно быть легко ... Я играю с токенайзерами, использующими Boost, и хочу создать токен, разделенный запятыми. вот мой код: string s = "this is, , , a test"; boost::char_delimiters_separator<char> sep(","); ...

5 ответов

токенизация и преобразование в латинскую свинью

Это похоже на домашнее задание, но, пожалуйста, будьте уверены, что это не домашнее задание. Просто упражнение в книге, которую мы используем в нашем курсе C ++, я пытаюсь читать дальше по указателям .. Упражнение в книге говорит мне разбить ...

1 ответ

C Tokenizer (и он возвращается пустым, когда поля отсутствуют. Ууу!)

Смотрите также:Это хороший substr () для C? [https://stackoverflow.com/questions/874015/updated-is-this-a-good-substr-for-c] strtok() и друзья пропускают пустые поля, и я не знаю, как сказать, чтобы они не пропускали, а возвращали пустые в таких ...

4 ответа

Ошибка токенизации: java.util.regex.PatternSyntaxException, висячий метасимвол '*'

Я используюsplit() токенизировать строку, разделенную* следующий этот формат: name*lastName*ID*school*age % name*lastName*ID*school*age % name*lastName*ID*school*ageЯ читаю это из файла с именем "entrada.al", используя этот код: static void ...