¿Cómo leer archivos UTF-8 con Pandas?
Tengo un archivo UTF-8 con datos de Twitter y estoy tratando de leerlo en un marco de datos de Python, pero solo puedo obtener un tipo de 'objeto' en lugar de cadenas unicode:
# file 1459966468_324.csv
#1459966468_324.csv: UTF-8 Unicode English text
df = pd.read_csv('1459966468_324.csv', dtype={'text': unicode})
df.dtypes
text object
Airline object
name object
retweet_count float64
sentiment object
tweet_location object
dtype: object
¿Cuál es la forma correcta de leer y coaccionar datos UTF-8 en unicode con Pandas?
Esto no resuelve el problema:
df = pd.read_csv('1459966468_324.csv', encoding = 'utf8')
df.apply(lambda x: pd.lib.infer_dtype(x.values))
El archivo de texto está aquí:https://raw.githubusercontent.com/l1x/nlp/master/1459966468_324.csv