Suchergebnisse für Anfrage "spark-dataframe"

0 die antwort

SparkR collect () und head () Fehler für Spark DataFrame: Argumente implizieren unterschiedliche Zeilenanzahl

Ich habe eine Parkettdatei vom HDFS-System gelesen: path<-"hdfs://part_2015" AppDF <- parquetFile(sqlContext, path) printSchema(AppDF) root |-- app: binary (nullable = true) |-- category: binary (nullable = true) |-- date: binary (nullable = ...

0 die antwort

SparkR: Split-Apply-Combine im Dplyr-Stil für DataFrame

Unter dem vorherigen RDD-Paradigma könnte ich einen Schlüssel angeben und dann eine Operation den RDD-Elementen zuordnen, die jedem Schlüssel entsprechen. Ich sehe keinen klaren Weg, um dies mit DataFrame in SparkR ab 1.5.1 zu tun. Was ich tun ...

0 die antwort

Wie man mehrere in einer Spalte einer RDD gespeicherte json-Tabellen so effizient wie möglich auf eine einzelne RDD-Tabelle reduziert

Funktioniert der gleichzeitige Zugriff auf das Anhängen von Zeilen mithilfe von union in einem Datenframe mithilfe des folgenden Codes ordnungsgemäß? Derzeit wird der Typ error @ angezeig from pyspark.sql.types import * schema = StructType([ ...

TOP-Veröffentlichungen

2 die antwort

Spark dataframes groupby in list

Ich versuche, einige Analysen an Sets durchzuführen. Ich habe einen Beispieldatensatz, der so aussieht: orders.json {"items":[1,2,3,4,5]} {"items":[1,2,5]} {"items":[1,3,5]} {"items":[3,4,5]}lles in allem ist es ein einzelnes Feld, das eine ...

2 die antwort

Wie filtere ich einen Spark-Datenrahmen gegen einen anderen Datenrahmen?

Ich versuche, einen Datenrahmen gegen einen anderen zu filtern: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Now ...

2 die antwort

Apache Spark Window-Funktion mit verschachtelter Spalte

Ich bin mir nicht sicher, ob dies ein Fehler ist (oder nur eine falsche Syntax). Ich habe mich umgesehen und habe dies an keiner anderen Stelle erwähnt. Deshalb frage ich hier, bevor ich einen Fehlerbericht einreiche. Ich versuche, eine ...

2 die antwort

Create DataFrame von der Liste der Tupel mit pyspark

Ich arbeite mit Daten, die mit dem Simple-Salesforce-Paket aus SFDC extrahiert wurden. Ich verwende Python3 für Skripte und Spark 1.5.2. Ich habe einen Rdd erstellt, der die folgenden Daten enthält: [('Id', 'a0w1a0000003xB1A'), ('PackSize', ...

2 die antwort

Spark Streaming: Wie kann ich meinem DStream weitere Partitionen hinzufügen?

Ich habe eine Spark-Streaming-App, die so aussieht: val message = KafkaUtils.createStream(...).map(_._2) message.foreachRDD( rdd => { if (!rdd.isEmpty){ val kafkaDF = sqlContext.read.json(rdd) kafkaDF.foreachPartition( i =>{ createConnection() ...

2 die antwort

So wählen Sie alle Spalten aus, die mit einer gemeinsamen Bezeichnung beginnen

Ich habe einen Datenrahmen in Spark 1.6 und möchte nur einige Spalten daraus auswählen. Die Spaltennamen lauten wie folgt: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Ich weiß, dass ich auf diese Weise bestimmte Spalten auswählen ...

2 die antwort

Wie ändere ich einen Spark-Datenrahmen mit einer komplexen verschachtelten Struktur?

Ich habe eine komplexe DataFrame-Struktur und möchte eine Spalte einfach auf null setzen. Ich habe implizite Klassen erstellt, die Funktionen verknüpfen und auf einfache Weise 2D-DataFrame-Strukturen ansprechen, aber sobald der DataFrame mit ...