Удаление неанглийского текста из Корпуса в R с помощью tm ()
я используюtm()
а такжеwordcloud()
для некоторого базового интеллектуального анализа данных в R, но я сталкиваюсь с трудностями, потому что в моем наборе данных есть неанглийские символы (хотя яМы пытались отфильтровать другие языки на основе фоновых переменных.
Позволять'скажем, что некоторые строки в моем TXT-файле (сохраненные как UTF-8 в TextWrangler) выглядят так:
Special
satisfação
Happy
Sad
Potential für
Затем я читаю мой текстовый файл в R:
words