Wie kann man UTF-8-Dateien mit Pandas lesen?
Ich habe eine UTF-8-Datei mit Twitter-Daten und ich versuche, sie in einen Python-Datenrahmen einzulesen, kann aber nur einen Objekttyp anstelle von Unicode-Zeichenfolgen abrufen:
# file 1459966468_324.csv
#1459966468_324.csv: UTF-8 Unicode English text
df = pd.read_csv('1459966468_324.csv', dtype={'text': unicode})
df.dtypes
text object
Airline object
name object
retweet_count float64
sentiment object
tweet_location object
dtype: object
Was ist die richtige Methode zum Lesen und Konvertieren von UTF-8-Daten in Unicode mit Pandas?
Dies löst das Problem nicht:
df = pd.read_csv('1459966468_324.csv', encoding = 'utf8')
df.apply(lambda x: pd.lib.infer_dtype(x.values))
Text-Datei ist hier:https: //raw.githubusercontent.com/l1x/nlp/master/1459966468_324.cs