Результаты поиска по запросу "text-mining"
Как определить (естественный) язык документа?
У меня есть комплект документов на двух языках: английском и немецком. Об этих документах нет полезной метаинформации, программа может просматривать только содержимое. Исходя из этого, программа должна решить, на каком из двух языков написан ...
Сделайте фрейм данных из N часто встречающихся терминов для нескольких корпораций, используя пакет tm в R
У меня есть несколькоTermDocumentMatrixs создан сtm пакет в R. Я хочу найти 10 самых частых терминов в каждом наборе документов, чтобы в конечном итоге получить следующую таблицу вывода: corpus1 corpus2 "beach" "city" "sand" "sidewalk" ... ... ...
Смайлики в твиттере Анализ настроений в т
Как мне обработать / избавиться от смайликов, чтобы я мог сортировать твиты для анализа настроений? Получение: Ошибка в sort.list (y): неверный ввод Спасибо и вот как смайлики выходят из твиттера в г: \xed��\xed�\u0083\xed��\xed�� ...
Нахождение 2 и 3 словосочетаний с использованием пакета R TM
Я пытаюсь найти код, который на самом деле работает, чтобы найти наиболее часто используемые фразы из двух и трех слов в пакете интеллектуального анализа текста R (возможно, есть еще один пакет, который я не знаю). Я пытался ...
tm: читать в фрейме данных, сохранять текстовые идентификаторы, создавать DTM и присоединяться к другому набору данных
Я использую пакет тм. Скажем, у меня есть фрейм данных из 2 столбцов, 500 строк. Первый столбец - это идентификатор, который генерируется случайным образом и содержит как символ, так и число: «txF87uyK». Второй столбец - это фактический текст: ...