НЛТК токенизация и сокращения
Я делаю токенизацию текста с помощью nltk, просто предложений, поданных в wordpunct_tokenizer. Это разделяет сокращения (например, от «не» до «+» и «+»), но я хочу сохранить их как одно слово. Я совершенствую свои методы для более взвешенного и точного токенизации текста, поэтому мне нужно углубиться в модуль токенизации nltk, помимо простого токенизации.
Я предполагаю, что это распространено, и мне бы хотелось получить отзывы от других людей, которым, возможно, приходилось сталкиваться с конкретной проблемой раньше.
редактировать:
Да, это общий вопрос, который я знаю
Кроме того, как новичку в nlp, мне вообще нужно беспокоиться о сокращениях?
РЕДАКТИРОВАТЬ:
Кажется, что SExprTokenizer или TreeBankWordTokenizer делают то, что я сейчас ищу.