Результаты поиска по запросу "tm"

2 ответа

R тм пакет: UTF-8 текст

Я хотел бы создать Wordcloud для неанглийского текста в UTF-8 (на самом деле этов казахском языке).Текст отображается абсолютно правильно в функции проверки ...

2 ответа

как создать корпус файлов * .docx с помощью tm?

У меня есть смешанная коллекция типов документов MS Word. Некоторые файлы * .doc, а некоторые * .docx. Я учусь пользоватьсяtm и я (более или менее *) успешно создал корпус, состоящий из файлов * .doc, используя это: ex_eng <- ...

2 ответа

Текстовый майнинг с помощью tm-пакета - слово stemming

Я делаю текстовый майнинг в R сtm-package. Все работает очень гладко. Тем не менее, одна проблема возникает послеhttp://en.wikipedia.org/wiki/Stemming [http://en.wikipedia.org/wiki/Stemming]). Очевидно, что есть некоторые слова, которые имеют ...

ТОП публикаций

2 ответа

Как воссоздать тот же DocumentTermMatrix с новыми (тестовыми) данными

Предположим, у меня есть текстовые данные обучения и данные тестирования. Чтобы быть более конкретным, у меня есть два набора данных - обучение и тестирование - и у каждого из них есть один столбец, который содержит текст и представляет интерес ...

1 ответ

Попытка удалить слова из DocumentTermMatrix, чтобы использовать топические модели

Итак, я пытаюсь использоватьtopicmodels пакет дляR (100 тем в корпусе ~ 6400 документов, каждый из которых ~ 1000 слов). Процесс запускается, а затем умирает, я думаю, потому что у него заканчивается память. Поэтому я стараюсь уменьшить размер ...

2 ответа

Как сгладить список списков?

tm пакет расширяетсяc так что, если дан наборPlainTextDocuments это автоматически создаетCorpus, К сожалению, похоже, что каждыйPlainTextDocument должны быть указаны отдельно. например если бы у меня было: foolist <- list(a, b, c); # where ...

3 ответа

Dictionary () больше не поддерживается в пакете tm. Как исправить код?

Я просто заметил, что после обновления до

1 ответ

readPDF (тм пакет) в R

Я попытался прочитать какой-нибудь документ в формате PDF на языке R. Я использовалreadRDF функция. Мой сценарий выглядит так safex ...

4 ответа

Ошибка DocumentTermMatrix в аргументе Корпус

У меня есть следующий код:

0 ответов

Сбой DocumentTermMatrix со странной ошибкой только тогда, когда # term> 3000

Мой код ниже работает нормально, если я не использую создать DocumentTermMatrix с более чем 3000 терминов. Эта строка: movie_dict <- findFreqTerms(movie_dtm_train, 8) movie_dtm_hiFq_train <- DocumentTermMatrix(movie_corpus_train, list(dictionary ...