Удаление неанглийского текста из Корпуса в R с помощью tm ()

Question

Aug 09, 2013, 06:41 PM

Удаление неанглийского текста из Корпуса в R с помощью tm ()

я используюtm() а такжеwordcloud() для некоторого базового интеллектуального анализа данных в R, но я сталкиваюсь с трудностями, потому что в моем наборе данных есть неанглийские символы (хотя яМы пытались отфильтровать другие языки на основе фоновых переменных.

Позволять'скажем, что некоторые строки в моем TXT-файле (сохраненные как UTF-8 в TextWrangler) выглядят так:

Special
satisfação
Happy
Sad
Potential für

Затем я читаю мой текстовый файл в R:

words

Удаление неанглийского текста из Корпуса в R с помощью tm ()

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Удаление неанглийского текста из Корпуса в R с помощью tm ()

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы