Результаты поиска по запросу "tokenize"
Как получить токен из Lucene TokenStream?
Я пытаюсь использовать Apache Lucene для токенизации, и я озадачен процессом получения токенов из
Токенизация строк в C
Я пытался токенизировать строку, используя пробел в качестве разделителя, но он не работает. У кого-нибудь есть предложение, почему оно не работает?Изменить:...
массив или список в Oracle с помощью cfprocparam
У меня есть список значений, которые я хочу вставить в таблицу с помощью хранимой процедуры. Я подумал, что передам массив оракулу и переберу массив, но не в...
Как разбить строку в оболочке и получить последнее поле
Предположим, у меня есть строка
получить индексы исходного текста из nltk word_tokenize
Я токенизирую текст, используя nltk.word_tokenize, и я хотел бы также получить индекс в исходном необработанном тексте по первому символу каждого токена, т.е.
Как использовать CountVectorizerand () в sklearn, чтобы получить нграммы, которые содержат любые знаки препинания в качестве отдельных токенов?
я используюsklearn.feature_extraction.text.CountVectorizer вычислить н-грамм. Пример:
Как токенизировать расширенный макрос (локальный: dir)?
Я знаю, что мое название сбивает с толку в том смысле, что