Как обрабатывать сленговые слова и короткие формы в твитах, таких как luv, kool и brb?

Question

Feb 27, 2015, 05:18 PM

Как обрабатывать сленговые слова и короткие формы в твитах, таких как luv, kool и brb?

Я делаю предварительную обработку твитов с использованием Python. Однако многие используемые слова представляют собой короткие формы других слов, таких как luv, kool и т. Д. А также, такие сокращения, как brb, ttyl и т. Д.

Прямо сейчас я могу думать только о том, чтобы иметь огромный Hashmap со словами в качестве ключей и фактическими словами или расширениями в качестве значений. Есть ли другой лучший способ приблизиться к этому, используя НЛП?

ПРИМЕЧАНИЕ: я знаю, вопрос кажется слишком расплывчатым. Но, пожалуйста, не сообщайте об этом. Я спросил это, чтобы любители могли извлечь выгоду из этих знаний

PS: Есть ли отформатированный текстовый список, который я могу скачать и использовать? Положенные ссылки хороши, но когда я копирую и вставляю их - они не в легко разбираемом формате

Как обрабатывать сленговые слова и короткие формы в твитах, таких как luv, kool и brb?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как обрабатывать сленговые слова и короткие формы в твитах, таких как luv, kool и brb?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы