Suchergebnisse für Anfrage "spark-dataframe"
SparkR: Split-Apply-Combine im Dplyr-Stil für DataFrame
Unter dem vorherigen RDD-Paradigma könnte ich einen Schlüssel angeben und dann eine Operation den RDD-Elementen zuordnen, die jedem Schlüssel entsprechen. Ich sehe keinen klaren Weg, um dies mit DataFrame in SparkR ab 1.5.1 zu tun. Was ich tun ...
Flatten Nested Spark Dataframe
Gibt es eine Möglichkeit, einen beliebig verschachtelten Spark-Dataframe zu reduzieren? Die meiste Arbeit, die ich sehe, ist für ein bestimmtes Schema geschrieben, und ich möchte in der Lage sein, einen Dataframe mit ...
Wie konvertiere ich DataFrame nach Dataset in Apache Spark in Java?
Ich kann DataFrame in Scala ganz einfach in Dataset konvertieren: case class Person(name:String, age:Long) val df = ctx.read.json("/tmp/persons.json") val ds = df.as[Person] ds.printSchemaAber in der Java-Version kann ich Dataframe nicht in ...
Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ist bereits gesetzt
Ich verwende spark 1.6 und stoße auf das obige Problem, wenn ich den folgenden Code ausführe: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...
Spark: Spalte bedingt zu Datenrahmen hinzufügen
Ich versuche meine Eingabedaten zu übernehmen: A B C -------------- 4 blah 2 2 3 56 foo 3Und fügen Sie am Ende eine Spalte hinzu, je nachdem, ob B leer ist oder nicht: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Ich kann dies ...
Apache Spark Window-Funktion mit verschachtelter Spalte
Ich bin mir nicht sicher, ob dies ein Fehler ist (oder nur eine falsche Syntax). Ich habe mich umgesehen und habe dies an keiner anderen Stelle erwähnt. Deshalb frage ich hier, bevor ich einen Fehlerbericht einreiche. Ich versuche, eine ...
Create DataFrame von der Liste der Tupel mit pyspark
Ich arbeite mit Daten, die mit dem Simple-Salesforce-Paket aus SFDC extrahiert wurden. Ich verwende Python3 für Skripte und Spark 1.5.2. Ich habe einen Rdd erstellt, der die folgenden Daten enthält: [('Id', 'a0w1a0000003xB1A'), ('PackSize', ...
So wählen Sie alle Spalten aus, die mit einer gemeinsamen Bezeichnung beginnen
Ich habe einen Datenrahmen in Spark 1.6 und möchte nur einige Spalten daraus auswählen. Die Spaltennamen lauten wie folgt: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Ich weiß, dass ich auf diese Weise bestimmte Spalten auswählen ...
Spark UI zeigt 0 Kerne an, auch wenn Kerne in App @ gesetzt werd
Ich habe ein seltsames Problem beim Ausführen einer Anwendung von der Spark-Master-URL, bei der die Benutzeroberfläche unbegrenzt den Status "WAITING" meldet, da in der Tabelle RUNNING APPLICATIONSs (AUSFÜHRENDE ANWENDUNGEN) 0 Kerne angezeigt ...
Spark Streaming: Wie kann ich meinem DStream weitere Partitionen hinzufügen?
Ich habe eine Spark-Streaming-App, die so aussieht: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ createConnection() ...