R тм пакет: UTF-8 текст

Question

Jan 21, 2014, 08:23 AM

R тм пакет: UTF-8 текст

Я хотел бы создать Wordcloud для неанглийского текста в UTF-8 (на самом деле, это на казахском языке).

Текст отображается абсолютно правильно в функции проверки пакета TM. Однако, когда я ищу частоту слов, все отображается неправильно:

Проблема в том, что текст отображается с закодированными символами вместо слов. Кириллические символы отображаются правильно. Следовательно, Wordcloud становится полным беспорядком.

Можно ли как-то назначить кодировку для функции tm? Я пыталсяэто, но сам по себе текст в порядке, проблема с использованием пакета TM.

Пусть образец текста будет:

Ол арман - еллем елдерімен терезесі тең қатынас құрып, картлем картасынан ойып тұрып орын алатын Тәуелсіз Мемлекет атану еді. Ол арман - тұрмысы бақуатты, түтіні түзу ұшқан, ғрпағы ертеңіне сеніммен қарайтын бақытты Ел болу еді. Біз армандарды ақиқатқа айналдырдық. Мәңгілік Елдің іргетасын қаладық. Мен қоғамда «Қазақ елінің ұлттық идеясы қандай болуы керек?» Деген сауал жиы талқыға түсетінін көріп жүрмін. Біз үшін болашағымызға бағдар ететін, ұлтты ұйыстырып, ұлы мақсаттарға жетелейтін идея бар. Ол - Мәңгілік Ел идеясы. Тәуелсіздікпен бірге халқымыз Мәңгілік Мұраттарына қол жеткізді.

Мой простой код такой :( На основеonertipaday.blogspot.com учебники :)

require(tm)
require(wordcloud)
text<-readLines("text.txt", encoding="UTF-8")
ap.corpus <- Corpus(DataframeSource(data.frame(text)))
ap.corpus <- tm_map(ap.corpus, removePunctuation)
ap.corpus <- tm_map(ap.corpus, tolower)
ap.tdm <- TermDocumentMatrix(ap.corpus)
ap.m <- as.matrix(ap.tdm)
ap.v <- sort(rowSums(ap.m),decreasing=TRUE)
ap.d <- data.frame(word = names(ap.v),freq=ap.v)
table(ap.d$freq)

1  2 
44  4 

findFreqTerms(ap.tdm, lowfreq=2)

[1] "<U+04D9>лем"            "арман"                  "еді"                   
[4] "м<U+04D9><U+04A3>гілік"

Эти слова должны быть: "Әлем", арман "," еді "," мәңгілік ". Они правильно отображаются вinspect(ap.corpus) выход.

Высоко ценю любую помощь! :)

R тм пакет: UTF-8 текст

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

R тм пакет: UTF-8 текст

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы