Suchergebnisse für Anfrage "spark-dataframe"

8 die antwort

Was sind mögliche Gründe für den Empfang von TimeoutException: Zeitüberschreitung bei Futures nach [n Sekunden] bei der Arbeit mit Spark [duplizieren]

Diese Frage hat hier bereits eine Antwort: Warum schlägt der Beitritt mit "java.util.concurrent.TimeoutException: Zeitüberschreitung bei Futures nach [300 Sekunden]" ...

2 die antwort

Scala: Spark SQL to_date (unix_timestamp) gibt NULL @ zurü

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich lade eine unformatierte CSV in einen DataFrame. In csv wird die Spalte zwar im Datumsformat unterstützt, sie wird jedoch als 20161025 anstatt als 2016-10-25 geschrieben. Der ...

2 die antwort

PySpark Wie man CSV in Dataframe einliest und manipuliert

Ich bin ein Neuling in Pyspark und versuche, damit einen großen Datensatz zu verarbeiten, der als CSV-Datei gespeichert wird. Ich möchte CSV-Dateien in Spark-Datenrahmen einlesen, einige Spalten löschen und neue Spalten hinzufügen. Wie soll ich ...

TOP-Veröffentlichungen

2 die antwort

Spark Window Functions benötigt HiveContext?

Ich versuche ein Beispiel für eine Fensterfunktion auf Funken aus diesem ...

4 die antwort

Datenrahmen nach Wert filtern, der NICHT in der Spalte eines anderen Datenrahmens vorhanden ist [duplizieren]

Diese Frage hat hier bereits eine Antwort: Filter Spark DataFrame basierend auf einem anderen DataFrame, der Blacklist-Kriterien angibt [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...

14 die antwort

Pyspark dataframe LIKE operator

Was ist das Äquivalent in Pyspark für den LIKE-Operator? Zum Beispiel würde ich gerne machen: SELECT * FROM table WHERE column LIKE "*somestring*";nach so etwas einfachem suchen (aber das funktioniert ...

2 die antwort

Wie schalte ich die wissenschaftliche Notation im Pyspark aus?

Als Ergebnis einer Aggregation habe ich folgenden Sparkdataframe gefunden: ------------+-----------------+-----------------+ |sale_user_id|gross_profit |total_sale_volume| +------------+-----------------+-----------------+ | 20569| -3322960.0| ...

2 die antwort

Warum liest Apache Spark unnötige Parkettspalten in verschachtelten Strukturen?

as Team von @My erstellt einen ETL-Prozess, um mit Spark unbegrenzte Textdateien in einen Parkett-basierten "Datensee" zu laden. Eine der Versprechungen des Parquet-Spaltenspeichers ist, dass eine Abfrage nur die erforderlichen "Spaltenstreifen" ...

8 die antwort

Wie speichere ich einen DataFrame als komprimierte (gezippte) CSV?

Ich benutze Spark 1.6.0 und Scala. Ich möchte einen DataFrame als komprimiertes CSV-Format speichern. Hier ist das, was ich bisher habe (nehme an, ich habe bereitsdf undsc wieSparkContext): //set the conf to the codec I ...

2 die antwort

Apache Funke Umgang mit case Aussagen

Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...