Suchergebnisse für Anfrage "dataframe"
Zeilensummenspalte über eine Spaltenliste in Spark Dataframe hinzufügen
Ich habe einen Spark-Datenrahmen mit mehreren Spalten. Ich möchte dem Datenrahmen eine Spalte hinzufügen, die eine Summe einer bestimmten Anzahl von Spalten ist. Zum Beispiel sehen meine Daten so aus: ID var1 var2 var3 var4 var5 a 5 7 9 12 13 b ...
Finden von Zeilen in R-Datenrahmen, bei denen ein Spaltenwert einer Sequenz folgt
Ich habe einen Datenrahmen wie unten, der eine Ausgabe eines Klassifikators ist. col1, class 123, 2 122, 5 124, 7 125, 9 126, 15 127, 2 128, 19 129, 5 130, 7 179, 9 180, 3Ich möchte die Zeilen finden, die ein bestimmtes Klassenmuster haben, wie ...
Aggregieren mehrerer Spalten mit benutzerdefinierter Funktion in Spark
Ich habe mich gefragt, ob es eine Möglichkeit gibt, eine benutzerdefinierte Aggregationsfunktion für Spark-Datenrahmen über mehrere Spalten anzugeben. Ich habe eine Tabelle wie diese vom Typ (Name, Artikel, Preis): john | tomato | 1.99 john | ...
python / pandas: Monat int in Monatsname konvertieren
Die meisten Informationen, die ich gefunden habe, waren nicht in python> pandas> dataframe, daher die Frage. Ich möchte eine Ganzzahl zwischen 1 und 12 in einen abgekürzten Monatsnamen umwandeln. Ich habe eine df, die aussieht wie: client ...
olen Sie sich mehr als 20 Zeilen und zeigen Sie den vollen Wert der Spalte in der Spark-Shell a
Ich benutzeCassandraSQLContext von Spark-Shell, um Daten von Cassandra abzufragen. Also, ich möchte zwei Dinge wissen, wie man mit @ mehr als 20 Zeilen hoCassandraSQLContext und zweitens, wie kann ich den vollen Wert der Spalte anzeigen. Wie Sie ...
Pandas Read_CSV zitiert Problem
Ich habe eine Datei, die so aussieht: 'colA'|'colB' 'word"A'|'A' 'word'B'|'B'Ich möchte benutzenpd.read_csv('input.csv',sep='|', quotechar="'") aber ich bekomme folgende Ausgabe: colA colB word"A A wordB' BDie letzte Zeile ist nicht korrekt, es ...
Pandas - Spaltenwerte in neue Spalten stapeln
Ich habe einen großen Datenrahmen und speichere viele redundante Werte, die den Umgang mit meinen Daten erschweren. Ich habe einen Datenrahmen der Form: import pandas as pd df = pd.DataFrame([["a","g","n1","y1"], ...
Python: Hinzufügen von Stunden zu pandas timestamp
Ich lese eine CSV-Datei in pandas dataframedf und ich bekomme folgendes: df.columns Index([u'TDate', u'Hour', u'SPP'], dtype='object') >>> type(df['TDate'][0]) <class 'pandas.tslib.Timestamp'> type(df['Hour'][0]) <type 'numpy.int64'> >>> ...
Identifizierung aufeinanderfolgender Vorkommen eines Werts
Ich habe eine df wie folgt: Count 1 0 1 1 0 0 1 1 1 0und ich möchte ein @ zurückgeb1 in einer neuen Spalte, wenn zwei oder mehr aufeinanderfolgende Vorkommen von @ vorlieg1 imCount und ein0 wenn es nicht gibt. So würde in der neuen Spalte jede ...
convert pandas dataframe column von hex string nach int
Ich habe einen sehr großen Datenrahmen, den ich vermeiden möchte, durch jede einzelne Zeile zu iterieren, und möchte die gesamte Spalte von hexadezimaler Zeichenfolge in int konvertieren. Die Zeichenfolge wird mit Astype nicht ...