Suchergebnisse für Anfrage "pyspark"
Connection-Pooling in einer Pyspark-Streaming-Anwendung
Wie werden Verbindungspools in einer Pyspark-Streaming-Anwendung ordnungsgemäß verwendet? Ich lese ...
Wie werden die Protokolle eines Spark-Jobs angezeigt, nachdem dieser abgeschlossen und der Kontext geschlossen wurde?
Ich rennepyspark, spark 1.3, standalone mode, client mode. Ich versuche, meinen Spark-Job zu untersuchen, indem ich mir die Jobs aus der Vergangenheit anschaue und sie miteinander vergleiche. Ich möchte ihre Protokolle, die ...
Spark: Dataframe.subtract gibt alles zurück, wenn der Schlüssel nicht der erste in der Zeile ist
Ich versuche, @ zu verwend SQLContext.subtract () [https://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame.subtract] in Spark 1.6.1 zum Entfernen von Zeilen aus einem Datenrahmen basierend auf einer Spalte aus ...
Erstellen Sie einen Datenrahmen in Pyspark, der eine einzelne Spalte mit Tupeln enthält
Ich habe eine RDD, die Folgendes enthält: [('Spalte 1', Wert), ('Spalte 2', Wert), ('Spalte 3', Wert), ..., ('Spalte 100', Wert)] . Ich möchte einen Datenrahmen erstellen, der eine einzelne Spalte mit Tupeln enthält. Der nächste, den ich ...
So teilen Sie Vector in Spalten auf - mit PySpark
Kontext Ich habe einDataFrame mit 2 Spalten: Wort und Vektor. Wo der Spaltentyp von "Vektor" istVectorUDT. Ein Beispiel word | vector assert | [435,323,324,212...] ,Und ich möchte Folgendes erhalten: word | v1 | v2 | v3 | v4 | v5 | v6 ...... ...
Wie kann man den Bereitstellungsmodus der PySpark-Anwendung kennen?
Ich versuche, ein Problem mit zu wenig Arbeitsspeicher zu beheben, und möchte wissen, ob ich diese Einstellungen in der Standardkonfigurationsdatei ändern muss spark-defaults.conf) im Spark-Ausgangsordner. Oder, wenn ich sie im Code einstellen ...
Retieve top n in jeder Gruppe eines DataFrame in pyspark
Es gibt einen DataFrame in Pyspark mit folgenden Daten: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Was ich erwarte, gibt 2 Datensätze in jeder Gruppe mit ...
Wie verbinde ich HBase und Spark mit Python?
Ich habe eine peinlich parallele Aufgabe, für die ich Spark verwende, um die Berechnungen zu verteilen. Diese Berechnungen sind in Python und ich benutze PySpark, um die Daten zu lesen und vorzuverarbeiten. Die Eingabedaten für meine Aufgabe ...
Spark 2.0: Relativer Pfad in absoluter URI (Spark-Warehouse)
Ich versuche, von Spark 1.6.1 auf Spark 2.0.0 zu migrieren, und es wird ein seltsamer Fehler angezeigt, wenn ich versuche, eine CSV-Datei in SparkSQL einzulesen. Wenn ich zuvor eine Datei von einer lokalen Festplatte in Pyspark gelesen habe, ...
Ist es in Apache Spark 2.0.0 möglich, eine Abfrage aus einer externen Datenbank abzurufen (anstatt die gesamte Tabelle abzurufen)?
Mit Pyspark: from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema.tablename")\ ...