Pandas-Datenrahmen mit Textspalte exportieren, die utf-8-Text und URLs zu Excel enthält

Question

Nov 23, 2015, 04:57 PM

excel pandas export-to-excel python export-to-csv

Pandas-Datenrahmen mit Textspalte exportieren, die utf-8-Text und URLs zu Excel enthält

er @My Pandas-Datenrahmen besteht aus Tweets und Metadaten jedes Tweets (300.000 Zeilen). Einige meiner Kollegen müssen mit diesen Daten in Excel arbeiten, weshalb ich sie exportieren muss.

Ich wollte entweder @ verwend.to_csv oder.to_excel die beide von Pandas bereitgestellt werden, aber ich kann es nicht richtig zum Laufen bringen.

Wenn ich benutze.to_csv mein Problem ist, dass es im Textteil des Datenrahmens immer wieder fehlschlägt. Ich habe mit verschiedenen Trennzeichen herumgespielt, aber die Datei ist nie zu 100% ausgerichtet. Die Textspalte scheint Tabulatoren, Pipe-Zeichen usw. zu enthalten, was Excel verwirrt.

df.to_csv('test.csv', sep='\t', encoding='utf-8')

Wenn ich versuche, @ zu verwend.to_excel zusammen mit demxlsxwriter engine Ich habe ein anderes Problem: Meine Textspalte enthält zu viele URLs (glaube ich).xlswriter versucht, spezielle anklickbare Links dieser URLs zu erstellen, anstatt sie nur als Zeichenfolgen zu behandeln. Ich habe einige Informationen zur Umgehung dieses Problems gefunden, kann es aber auch nicht zum Laufen bringen.

Das folgende Codebit sollte verwendet werden, um die Funktion zu deaktivieren, die meiner Meinung nach Probleme verursacht:

workbook = xlsxwriter.Workbook(filename, {'strings_to_urls': False})

Bei Verwendung vonto_excel Ich kann diese Einstellung des Arbeitsmappenobjekts scheinbar nicht anpassen, bevor ich den Datenrahmen in die Excel-Datei geladen habe.

Kurz gesagt, wie exportiere ich eine Spalte mit stark unterschiedlichem Text aus einem Pandas-Datenrahmen in eine von Excel verstandene Datei?

bearbeiten Beispiel:

@geertwilderspvv @telegraaf ach Wilders toch, nep-voorzitter van een nep-partij met maar één lid, \nzeur niet over nep-premier of parlement!

So in diesem Fall ist es offensichtlich eine Leitungsbremse, die meine Daten sind. Ich werde versuchen, weitere Beispiele zu finden.

edit2:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<recoveryLog xmlns="http://schemas.openxmlformats.org/spreadsheetml/2006/main"><logFileName>error047600_01.xml</logFileName><summary>Er zijn fouten aangetroffen in bestand C:\Users\Guy Mahieu\Desktop\Vu ipython notebook\pandas_simple.xlsx</summary><removedRecords summary="Hier volgt een lijst van verwijderde records:"><removedRecord>Verwijderde records: Formule van het onderdeel /xl/worksheets/sheet1.xml</removedRecord></removedRecords></recoveryLog>

Übersetzung von Niederländisch:

Errors wurden in "file" gefunden. Hier folgt eine Liste der entfernten Datensätze: entfernte Datensätze: Formel des Teils /xl/worksheets/sheet1.xm