Suchergebnisse für Anfrage "apache-spark"

6 die antwort

Wie mache ich Left Outer Join in Spark SQL?

Ich versuche, eine linke äußere Verknüpfung in spark (1.6.2) zu erstellen, aber das funktioniert nicht. Meine SQL-Abfrage sieht folgendermaßen aus: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = ...

2 die antwort

PySpark Throwing error Methode __getnewargs __ ([]) existiert nicht

Ich habe eine Reihe von Dateien. Der Pfad zu den Dateien wird in einer Datei gespeichert. Sagen Sie "all_files.txt". Ich benutze Apache Spark, um alle Dateien zu bearbeiten und die Ergebnisse zu analysieren. Die Schritte, die ich machen möchte, ...

8 die antwort

Was sind mögliche Gründe für den Empfang von TimeoutException: Zeitüberschreitung bei Futures nach [n Sekunden] bei der Arbeit mit Spark [duplizieren]

Diese Frage hat hier bereits eine Antwort: Warum schlägt der Beitritt mit "java.util.concurrent.TimeoutException: Zeitüberschreitung bei Futures nach [300 Sekunden]" ...

TOP-Veröffentlichungen

6 die antwort

N-mal Spark Row replizieren

Ich möchte eine Zeile in einem DataFrame duplizieren. Wie kann ich das tun? Zum Beispiel habe ich einen DataFrame, der aus 1 Zeile besteht, und ich möchte einen DataFrame mit 100 identischen Zeilen erstellen. Ich habe die folgende Lösung ...

2 die antwort

Wie man nach einem Join mehrere Spalten in einem Pyspark Dataframe auswählt und anordnet

Ich möchte mehrere Spalten aus einem vorhandenen Datenrahmen auswählen (der nach Verknüpfungen erstellt wird) und möchte die Dateien als meine Zieltabellenstruktur sortieren. Wie geht das? Der Ansatz, den ich verwendet habe, ist unten. Hier kann ...

4 die antwort

Ausführen von EMR Spark mit mehreren S3-Konten

Ich habe einen EMR-Spark-Job, der Daten von S3 für ein Konto lesen und in ein anderes schreiben muss. Ich habe meinen Job in zwei Schritte aufgeteilt. Daten vom S3 lesen (keine Anmeldeinformationen erforderlich, da sich mein EMR-Cluster im ...

2 die antwort

Scala: Spark SQL to_date (unix_timestamp) gibt NULL @ zurü

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich lade eine unformatierte CSV in einen DataFrame. In csv wird die Spalte zwar im Datumsformat unterstützt, sie wird jedoch als 20161025 anstatt als 2016-10-25 geschrieben. Der ...

6 die antwort

Object Cache auf Spark-Executoren

ine gute Frage für Spark-Experte Ich verarbeite Daten in einemmap operation (RDD). Innerhalb der Mapper-Funktion muss ich nach Objekten der Klasse @ sucheA zur Verarbeitung von Elementen in einer RDD. Da dies auf Executoren UND Erstellung von ...

2 die antwort

Wie verwende ich Column.isin in Java?

Ich versuche, einen Spark-DataFrame mithilfe einer Liste in Java zu filtern. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));Das Problem ist, dassisin(...) Methode akzeptiert ScalaSeq oder ...

2 die antwort

Scala Spark enthält vs. enthält nicht

Ich kann Tupel in einer RDD wie unten beschrieben mit "contain" filtern. Aber was ist mit dem Filtern einer RDD mit "enthält nicht"? val rdd2 = rdd1.filter(x => x._1 contains ".")Ich kann die Syntax dafür nicht finden. Vorausgesetzt, es ist ...