Результаты поиска по запросу "tokenize"
токенизировать строку, сохраняя разделители в Python
Есть ли эквивалентstr.split в Python, который также возвращает разделители? Мне нужно сохранить макет пробелов для вывода после обработки некоторых токенов. Пример: >>> s="\tthis is an example" >>> print s.split() ['this', 'is', 'an', ...
это приводит к
ти уверен, что это простой вопрос, и я видел, что он задавался раньше, просто нет четких ответов. У меня есть несколько файлов свойств, которые используются для разных сред, например, xxxx-dev, xxxx-test, xxxx-live Файлы свойств содержат что-то ...
совпадает с цифрами тоже! И эта простая ошибка заставила меня усомниться в системе и опубликовать вопрос!
кст, Я разрабатываю движок Lexer / Tokenizing, который будет использовать регулярное выражение в качестве бэкэнда. Лексер принимает правила, которые определяют типы / идентификаторы токенов, например, <identifier> = "\\b\\w+\\b". Как я ...
Спасибо, это именно то, что я хочу. :-)
то я хочу сделать, это разделить текст на его конечные элементы. Например: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 are awesome." regexp_tokenize(txt, ...
Я не проверял это, просто выписал это по памяти. Вышеуказанный парсер должен иметь следующее:
рая суперспособности, как сопоставить строку, только если она является первой в строке? Например, мне нужно сопоставить двоеточие A в «A: Hello Goodbye \ n», но не в «Goodbye A: Hello \ n»
Это типичный выход для этого
ствуйте, я пытался заставить токенайзер работать, используя класс токенайзера библиотеки повышения. Я нашел этот урок в документации по бусту: http://www.boost.org/doc/libs/1 _36 _0 / libs / tokenizer / ...
Это не будет работать, потому что Regex.Split предназначен для захвата на основе разделителей, а не токенов. Используйте Regex.Match, чтобы получить желаемый эффект.
я есть такая строка /c SomeText\MoreText "Some Text\More Text\Lol" SomeTextЯ хочу маркировать это, однако я не могу просто разделить пробелы. Я придумала несколько уродливый парсер, который работает, но мне интересно, есть ли у кого-нибудь ...
ответ от @Haphazard
ужен Tokenizer (для AutoCompleteTextview), который может делать следующее: Два слова должны распознаваться как таковые, если они разделены пробеломДва слова также должны быть распознаны как таковые, если они разделены новой строкой (нажата ...
@mario: я перефразировал свою первую мысль. Объявления переписываются отдельно, а не в этой функции, просто добавляя текущее пространство имен (и заменяя подчеркивания). Вот что я имел ввиду под этим пунктом;)
аюсь автоматизировать удаление пространств имен из коллекции классов PHP, чтобы сделать их совместимыми с PHP 5.2. (Провайдерам общего хостинга не нравятся мошеннические установки PHP 5.3. Не знаю почему. Также в рассматриваемом коде ...
... В зависимости от языка строковые литералы могут быть не традиционными и, следовательно, не лексированными традиционно. Наш PHP-фронт для DMS использует двойные кавычки «строковые литералы» в виде последовательности строково-литеральных фрагментов разных типов. Это связано с тем, что такие строковые литералы в PHP на самом деле являются неявными выражениями, объединяющими кучу строковых значений, некоторые из которых на самом деле являются фрагментами литеральных строк, некоторые из которых являются интерполированными переменными или другими операторами, разрешенными PHP в «середине» литеральной строки. , Этот лексер все еще делает правильную вещь: подбирает языковые элементы.
абота лексера для анализа чисел и строк? Это может или не может звучать глупо, учитывая тот факт, что я спрашиваю,лексический долженразбор вход. Однако я не уверен, является ли это на самом деле работой лексера или парсера, потому чтодля того, ...