Как читать файлы UTF-8 с помощью Pandas?
У меня есть файл UTF-8 с данными из твиттера, и я пытаюсь прочитать его во фрейм данных Python, но я могу получить только объектный тип вместо строк Unicode:
# file 1459966468_324.csv
#1459966468_324.csv: UTF-8 Unicode English text
df = pd.read_csv('1459966468_324.csv', dtype={'text': unicode})
df.dtypes
text object
Airline object
name object
retweet_count float64
sentiment object
tweet_location object
dtype: object
Как правильно читать и приводить данные UTF-8 в Unicode с помощью Pandas?
Это не решает проблему:
df = pd.read_csv('1459966468_324.csv', encoding = 'utf8')
df.apply(lambda x: pd.lib.infer_dtype(x.values))
Текстовый файл здесь:https://raw.githubusercontent.com/l1x/nlp/master/1459966468_324.csv