НЛТК токенизация и сокращения

Question

Aug 31, 2012, 01:15 PM

НЛТК токенизация и сокращения

Я делаю токенизацию текста с помощью nltk, просто предложений, поданных в wordpunct_tokenizer. Это разделяет сокращения (например, от «не» до «+» и «+»), но я хочу сохранить их как одно слово. Я совершенствую свои методы для более взвешенного и точного токенизации текста, поэтому мне нужно углубиться в модуль токенизации nltk, помимо простого токенизации.

Я предполагаю, что это распространено, и мне бы хотелось получить отзывы от других людей, которым, возможно, приходилось сталкиваться с конкретной проблемой раньше.

редактировать:

Да, это общий вопрос, который я знаю

Кроме того, как новичку в nlp, мне вообще нужно беспокоиться о сокращениях?

РЕДАКТИРОВАТЬ:

Кажется, что SExprTokenizer или TreeBankWordTokenizer делают то, что я сейчас ищу.

НЛТК токенизация и сокращения

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

НЛТК токенизация и сокращения

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы