Результаты поиска по запросу "tm"
R тм пакет: UTF-8 текст
Я хотел бы создать Wordcloud для неанглийского текста в UTF-8 (на самом деле этов казахском языке).Текст отображается абсолютно правильно в функции проверки ...
как создать корпус файлов * .docx с помощью tm?
У меня есть смешанная коллекция типов документов MS Word. Некоторые файлы * .doc, а некоторые * .docx. Я учусь пользоватьсяtm и я (более или менее *) успешно создал корпус, состоящий из файлов * .doc, используя это: ex_eng <- ...
Текстовый майнинг с помощью tm-пакета - слово stemming
Я делаю текстовый майнинг в R сtm-package. Все работает очень гладко. Тем не менее, одна проблема возникает послеhttp://en.wikipedia.org/wiki/Stemming [http://en.wikipedia.org/wiki/Stemming]). Очевидно, что есть некоторые слова, которые имеют ...
Как воссоздать тот же DocumentTermMatrix с новыми (тестовыми) данными
Предположим, у меня есть текстовые данные обучения и данные тестирования. Чтобы быть более конкретным, у меня есть два набора данных - обучение и тестирование - и у каждого из них есть один столбец, который содержит текст и представляет интерес ...
Попытка удалить слова из DocumentTermMatrix, чтобы использовать топические модели
Итак, я пытаюсь использоватьtopicmodels пакет дляR (100 тем в корпусе ~ 6400 документов, каждый из которых ~ 1000 слов). Процесс запускается, а затем умирает, я думаю, потому что у него заканчивается память. Поэтому я стараюсь уменьшить размер ...
Как сгладить список списков?
tm пакет расширяетсяc так что, если дан наборPlainTextDocuments это автоматически создаетCorpus, К сожалению, похоже, что каждыйPlainTextDocument должны быть указаны отдельно. например если бы у меня было: foolist <- list(a, b, c); # where ...
Dictionary () больше не поддерживается в пакете tm. Как исправить код?
Я просто заметил, что после обновления до
readPDF (тм пакет) в R
Я попытался прочитать какой-нибудь документ в формате PDF на языке R. Я использовалreadRDF функция. Мой сценарий выглядит так safex ...
Ошибка DocumentTermMatrix в аргументе Корпус
У меня есть следующий код:
Сбой DocumentTermMatrix со странной ошибкой только тогда, когда # term> 3000
Мой код ниже работает нормально, если я не использую создать DocumentTermMatrix с более чем 3000 терминов. Эта строка: movie_dict <- findFreqTerms(movie_dtm_train, 8) movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train, list(dictionary ...