Como ler arquivos UTF-8 com o Pandas?
Eu tenho um arquivo UTF-8 com dados do twitter e estou tentando lê-lo em um quadro de dados Python, mas só consigo obter um tipo de 'objeto' em vez de cadeias unicode:
# file 1459966468_324.csv
#1459966468_324.csv: UTF-8 Unicode English text
df = pd.read_csv('1459966468_324.csv', dtype={'text': unicode})
df.dtypes
text object
Airline object
name object
retweet_count float64
sentiment object
tweet_location object
dtype: object
Qual é a maneira correta de ler e coagir dados UTF-8 em unicode com o Pandas?
Isso não resolve o problema:
df = pd.read_csv('1459966468_324.csv', encoding = 'utf8')
df.apply(lambda x: pd.lib.infer_dtype(x.values))
O arquivo de texto está aqui:https://raw.githubusercontent.com/l1x/nlp/master/1459966468_324.csv