Suchergebnisse für Anfrage "pyspark"
pyspark: NameError: Name 'spark' ist nicht definiert
Ich kopiere das Beispiel pyspark.ml von der offiziellen ...
Wie wähle ich die letzte Zeile aus und wie greife ich über den Index auf PySpark-Datenrahmen zu?
Von einem PySpark SQL-Datenrahmen wie name age city abc 20 A def 30 BWie erhalte ich die letzte Zeile? (Wie bei df.limit (1) kann ich die erste Zeile des Datenrahmens in einen neuen Datenrahmen umwandeln). Und wie kann ich über den Index auf ...
Graphframes mit PyCharm @ verwend
Ich habe fast 2 Tage im Internet gescrollt und konnte dieses Problem nicht lösen. Ich versuche das @ zu installiergraphframes package [https://spark-packages.org/package/graphframes/graphframes] (Version: 0.2.0-spark2.0-s_2.11) mit Funken durch ...
Spark: PySpark + Cassandra-Abfrageleistung
Ich habe Spark 2.0 und Cassandra 3.0 auf einem lokalen Computer (8 Kerne, 16 GB RAM) zu Testzwecken eingerichtet und bearbeitetspark-defaults.conf wie folgt spark.python.worker.memory 1g spark.executor.cores 4 spark.executor.instances ...
Spark: Wie kann man "ReducedByKey" ausführen, wenn die Schlüssel numpy Arrays sind, die nicht hashbar sind?
Ich habe eine RDD von (Schlüssel-, Wert-) Elementen. Die Schlüssel sind NumPy-Arrays. NumPy-Arrays sind nicht hashbar, und dies verursacht ein Problem, wenn ich versuche, ein @ zu machereduceByKey Betrieb Gibt es eine Möglichkeit, den ...
Pyspark - Liefert alle Parameter von Modellen, die mit ParamGridBuilder @ erstellt wurd
Ich benutze PySpark 2.0 für einen Kaggle-Wettbewerb. Ich möchte das Verhalten eines Modells kennen RandomForest) abhängig von verschiedenen Parametern.ParamGridBuilder() erlaubt es, unterschiedliche Werte für einen einzelnen Parameter anzugeben ...
Wie kann die dynamische Selbstzuweisung von Ressourcen im Hadoop-Cluster unter "Garn" begrenzt werden?
In unserem Hadoop-Cluster, der unter Yarn ausgeführt wird, haben wir das Problem, dass einige "klügere" Leute in der Lage sind, erheblich größere Ressourcenmengen zu verbrauchen, indem sie Spark-Jobs in pySpark Jupyter-Notizbüchern konfigurieren ...
Spark RDD: Wie berechnet man Statistiken am effizientesten?
ngenommen, es gibt eine RDD mit Tupeln, die der folgenden ähnel (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Was ist die effizienteste (und im Idealfall verteilte) Methode zur Berechnung von Statistiken, die den ...
Spark Daten laden und Dateinamen als Datenrahmenspalte hinzufügen
Ich lade einige Daten mit einer Wrapper-Funktion in Spark: def load_data( filename ): df = sqlContext.read.format("com.databricks.spark.csv")\ .option("delimiter", "\t")\ .option("header", "false")\ .option("mode", "DROPMALFORMED")\ ...
Apache Funke Umgang mit case Aussagen
Ich beschäftige mich mit der Umwandlung von SQL-Code in PySpark-Code und bin auf einige SQL-Anweisungen gestoßen. Ich weiß nicht, wie ich mit Fallaussagen im Pyspark umgehen soll. Ich plane, ein RDD zu erstellen und dann rdd.map zu verwenden und ...