Suchergebnisse für Anfrage "pyspark"

4 die antwort

pyspark: NameError: Name 'spark' ist nicht definiert

Ich kopiere das Beispiel pyspark.ml von der offiziellen ...

8 die antwort

Wie wähle ich die letzte Zeile aus und wie greife ich über den Index auf PySpark-Datenrahmen zu?

Von einem PySpark SQL-Datenrahmen wie name age city abc 20 A def 30 BWie erhalte ich die letzte Zeile? (Wie bei df.limit (1) kann ich die erste Zeile des Datenrahmens in einen neuen Datenrahmen umwandeln). Und wie kann ich über den Index auf ...

2 die antwort

Graphframes mit PyCharm @ verwend

Ich habe fast 2 Tage im Internet gescrollt und konnte dieses Problem nicht lösen. Ich versuche das @ zu installiergraphframes package [https://spark-packages.org/package/graphframes/graphframes] (Version: 0.2.0-spark2.0-s_2.11) mit Funken durch ...

TOP-Veröffentlichungen

2 die antwort

Spark: PySpark + Cassandra-Abfrageleistung

Ich habe Spark 2.0 und Cassandra 3.0 auf einem lokalen Computer (8 Kerne, 16 GB RAM) zu Testzwecken eingerichtet und bearbeitetspark-defaults.conf wie folgt spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...

2 die antwort

Spark: Wie kann man "ReducedByKey" ausführen, wenn die Schlüssel numpy Arrays sind, die nicht hashbar sind?

Ich habe eine RDD von (Schlüssel-, Wert-) Elementen. Die Schlüssel sind NumPy-Arrays. NumPy-Arrays sind nicht hashbar, und dies verursacht ein Problem, wenn ich versuche, ein @ zu machereduceByKey Betrieb Gibt es eine Möglichkeit, den ...

4 die antwort

Pyspark - Liefert alle Parameter von Modellen, die mit ParamGridBuilder @ erstellt wurd

Ich benutze PySpark 2.0 für einen Kaggle-Wettbewerb. Ich möchte das Verhalten eines Modells kennen RandomForest) abhängig von verschiedenen Parametern.ParamGridBuilder() erlaubt es, unterschiedliche Werte für einen einzelnen Parameter anzugeben ...

2 die antwort

Wie kann die dynamische Selbstzuweisung von Ressourcen im Hadoop-Cluster unter "Garn" begrenzt werden?

In unserem Hadoop-Cluster, der unter Yarn ausgeführt wird, haben wir das Problem, dass einige "klügere" Leute in der Lage sind, erheblich größere Ressourcenmengen zu verbrauchen, indem sie Spark-Jobs in pySpark Jupyter-Notizbüchern konfigurieren ...

2 die antwort

Spark RDD: Wie berechnet man Statistiken am effizientesten?

ngenommen, es gibt eine RDD mit Tupeln, die der folgenden ähnel (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Was ist die effizienteste (und im Idealfall verteilte) Methode zur Berechnung von Statistiken, die den ...

2 die antwort

Spark Daten laden und Dateinamen als Datenrahmenspalte hinzufügen

Ich lade einige Daten mit einer Wrapper-Funktion in Spark: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...

2 die antwort

Apache Funke Umgang mit case Aussagen

Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...