Suchergebnisse für Anfrage "pyspark"
java.io.IOException: Das Programm "Python" kann nicht mit Spark in Pycharm (Windows) ausgeführt werden.
Ich versuche, mit Spark in Pycharm einen sehr einfachen Code zu schreiben, und mein Betriebssystem ist Windows 8. Ich habe mit mehreren Problemen zu tun, die bis auf eines irgendwie behoben wurden. Wenn ich den Code mit pyspark.cmd ausführe, ...
Exception: Socket konnte auf pyspark @ nicht geöffnet werd
Wenn ich versuche, eine einfache Verarbeitung in pyspark auszuführen, kann der Socket nicht geöffnet werden. >>> myRDD = sc.parallelize(range(6), 3) >>> sc.runJob(myRDD, lambda part: [x * x for x in part])Above löst eine Ausnahme aus - port ...
So ändern Sie die SparkContext-Eigenschaften in einer Interactive PySpark-Sitzung
Wie kann ich spark.driver.maxResultSize in der interaktiven Pyspark-Shell ändern? Ich habe den folgenden Code verwendet from pyspark import SparkConf, SparkContext conf = (SparkConf() .set("spark.driver.maxResultSize", "10g")) sc.stop() ...
PySpark: Durchschnitt einer Spalte nach Verwendung der Filterfunktion
Ich verwende den folgenden Code, um das Durchschnittsalter von Personen zu ermitteln, deren Gehalt einen bestimmten Schwellenwert überschreitet. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})das Spaltenalter ist numerisch (float), ...
Wie werden RDDs mit einer Python-Klasse verarbeitet?
Ich implementiere ein Modell in Spark als Python-Klasse und jedes Mal, wenn ich versuche, eine Klassenmethode einer RDD zuzuordnen, schlägt dies fehl. Mein eigentlicher Code ist komplizierter, aber diese vereinfachte Version befasst sich mit dem ...
SparkSQL - Lag-Funktion?
Ich sehe in diesemDataBricks post [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , in SparkSql werden Fensterfunktionen unterstützt, insbesondere versuche ich, die Fensterfunktion lag () zu verwenden. Ich ...
Klassenfunktionen an PySpark RDD übergeben
Ich habe eine Klasse namens some_class () in einer Python-Datei hier: /some-folder/app/bin/file.py Ich importiere es hier in meinen Code: /some-folder2/app/code/file2.pyDurc import sys sys.path.append('/some-folder/app/bin') from file import ...
Spark DataFrame: Zeilenweise Mittelwertberechnung (oder eine beliebige Aggregatoperation)
Ich habe einen Spark-DataFrame im Speicher geladen, und ich möchte den Mittelwert (oder eine beliebige Aggregatoperation) über die Spalten ziehen. Wie würde ich das machen? (Imnumpy, dies wird als Übernahme einer Operation über ...
Funktioniert Spark-Prädikat-Pushdown mit JDBC?
GemäßDie [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] Catalyst wendet logische Optimierungen an, z. B. das Pushdown von Vergleichselementen. Das Optimierungsprogramm kann ...
Zugriff auf Spark von Flask App
Ich habe eine einfache Flask-App geschrieben, um einige Daten an Spark zu übergeben. Das Skript funktioniert in IPython Notebook, aber nicht, wenn ich versuche, es auf einem eigenen Server auszuführen. Ich glaube nicht, dass der Spark-Kontext ...