Suchergebnisse für Anfrage "pandas"
Creating Binned Histogramme in Spark
Angenommen, ich habe einen Datenrahmen (df) (Pandas) oder RDD (Spark) mit den folgenden zwei Spalten: timestamp, data 12345.0 10 12346.0 12 In Pandas kann ich ziemlich einfach ein gruppiertes Histogramm mit verschiedenen Gruppierungslängen ...
Hinzufügen einer bestimmten Spalte aus einem Pandas-Datenrahmen zu einem anderen Pandas-Datenrahmen
Ich versuche, einem Pandas-Datenframe (df1) eine Spalte hinzuzufügen, die eine eindeutige ID-Spalte (id) eines anderen Datenframes (df2) mit derselben eindeutigen ID (sameid) aufweist. Ich habe versucht, zusammenzuführen, aber ich muss nur eine ...
Strip timezone info in pandas
Ich hatte Probleme damit, die Zeitzoneninformationen aus einer Spalte in einem Pandas-Datenframe zu entfernen. Ich habe die folgende Frage geprüft, aber sie funktioniert bei mir nicht: Kann ich pandas DataFrame nach Excel exportieren, um tzinfo ...
IPython Notebook Zelle mehrere Ausgänge
Ich führe diese Zelle in IPython Notebook aus: # salaries and teams are Pandas dataframe salaries.head() teams.head()Das Ergebnis ist, dass ich nur die Ausgabe von @ erhalteams data-frame anstatt von beidensalaries undteams. Wenn ich nur ...
Wie erstelle ich einen DataFrame aus Zeilen unter Beibehaltung des vorhandenen Schemas?
Wenn ich map anrufe odermapPartition und meine Funktion empfängt Zeilen von PySpark. Wie kann auf natürliche Weise entweder ein lokaler PySpark- oder ein Pandas-DataFrame erstellt werden? Etwas, das die Zeilen kombiniert und das Schema ...
Pivoting eines Pandas-Datenrahmens mit Zeichenfolgen - Fehler "Keine zu aggregierenden numerischen Typen"
Es gibt eine ganze Reihe von Fragen zu diesem Fehler, aber nachdem ich mich umgesehen habe, bin ich immer noch nicht in der Lage, eine Lösung zu finden / zu finden. Ich versuche, einen Datenrahmen mit Zeichenfolgen zu pendeln, um ...
read_csv mit fehlender / unvollständiger Überschrift oder unregelmäßiger Spaltenanzahl
Ich habe einfile.csv mit ~ 15k Zeilen, die so aussehen SAMPLE_TIME, POS, OFF, HISTOGRAM 2015-07-15 16:41:56, 0-0-0-0-3, 1, 2,0,5,59,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0, 2015-07-15 16:42:55, 0-0-0-0-3, 1, 0,0,5,9,0,0,0,0,0,2,0,0,0,50,0, 2015-07-15 ...
Wie werden die Unterschiede zwischen aufeinanderfolgenden Zeilen im Pandadatenrahmen berechnet?
Ich habe einen Datenrahmen,df, mit drei Spalten:count_a, count_b unddate; Die Zählungen sind Floats und die Daten sind aufeinanderfolgende Tage im Jahr 2015. Ich versuche, den Unterschied zwischen den täglichen Zählungen in ...
Python-Textverarbeitung: NLTK und Pandas
Ich suche nach einer effektiven Möglichkeit, eine Term Document Matrix in Python zu erstellen, die zusammen mit zusätzlichen Daten verwendet werden kann. Ich habe einige Textdaten mit einigen anderen Attributen. Ich möchte einige Analysen zum ...
Wie sortiere ich die Spalten eines Datenrahmens basierend auf den Werten in mehreren Zeilen?
Beispielsweise df = pd.DataFrame({'x':[1,1,1,2,3,3], 'y':['a','a','c','b','b','b']}) ct = pd.crosstab(df.x, df.y) ct y a b c x 1 2 0 1 2 0 1 0 3 0 2 0Wie sortiere ich die Spalten von ct nach den Werten in Zeile1, Zeile2 und Zeile3 (in ...