Suchergebnisse für Anfrage "apache-spark"
Spark on Wollglas Probleme beim Hochladen
Ich versuche, ein einfaches Map / Reduce-Java-Programm mit Spark-Over-Garn auszuführen (Cloudera Hadoop 5.2 unter CentOS). Ich habe dies auf zwei verschiedene Arten versucht. Der erste Weg ist der ...
Issue with UDF auf einer Vektorspalte in PySpark DataFrame
ch habe Probleme mit der Verwendung einer UDF für eine Vektorspalte in PySpark, die hier dargestellt werden kan from pyspark import SparkContext from pyspark.sql import Row from pyspark.sql.types import DoubleType from pyspark.sql.functions ...
Wie man Spaltennamen mit Bindestrich in Spark SQL @ maskie
Ich habe eine JSON-Datei in Spark importiert und als @ in eine Tabelle konvertier myDF.registerTempTable("myDF") Ich möchte dann SQL-Abfragen für diese resultierende Tabelle ausführen val newTable = sqlContext.sql("select column-1 from ...
Spark DataFrames: registerTempTable vs not
Ich habe gestern gerade mit DataFrame angefangen und es gefällt mir bis jetzt sehr gut. Ich verstehe jedoch nichts ... (Siehe das Beispiel unter "Programmgesteuertes Angeben des Schemas" ...
NoClassDefFoundError com.apache.hadoop.fs.FSDataInputStream beim Ausführen von spark-shell
Ich habe die vorab erstellte Version von spark 1.4.0 ohne hadoop heruntergeladen (mit dem vom Benutzer bereitgestellten Haddop). Als ich den Befehl spark-shell ausgeführt habe, ist folgender Fehler aufgetreten: > Exception in thread "main" ...
Wie richte ich Pyspark in Python 3 mit spark-env.sh.template ein?
Da ich dieses Problem in meinem ipython3-Notizbuch habe, muss ich wohl irgendwie "spark-env.sh.template" ändern. Ausnahme: Python in Worker hat eine andere Version 2.7 als die in Treiber 3.4. PySpark kann nicht mit verschiedenen Nebenversionen ...
Von DataFrame zu RDD [LabeledPoint]
Ich versuche, einen Dokumentklassifizierer mit Apache Spark MLlib zu implementieren, und es treten einige Probleme bei der Darstellung der Daten auf. Mein Code ist der folgende: import org.apache.spark.sql.{Row, SQLContext} ...
Spark: Der Versuch, spark-shell auszuführen, aber 'cmd' zu erhalten, wird nicht als internes oder @ erkan
Ich versuche, Spark auf meinem Windows-Desktop zu installieren. Alles sollte gut funktionieren, aber ich erhalte die Fehlermeldung "'cmd' wird nicht als interner oder externer Befehl erkannt ..." Ich habe Scala, Java JDK und entpacktes Spark ...
Voraussetzungen für die Konvertierung von Spark-Datenrahmen in Pandas / R-Datenrahmen
Ich starte Spark auf Hadoops YARN. Wie funktioniert diese Konvertierung? Findet ein collect () vor der Konvertierung statt? Auch muss ich Python und R auf jedem Slave-Knoten installieren, damit die Konvertierung funktioniert? Ich habe Mühe, ...
Spark 1.4 MaxResultSize-Speicher erhöhen
Ich verwende Spark 1.4 für meine Recherchen und kämpfe mit den Speichereinstellungen. Mein Computer hat 16 GB Speicher, also kein Problem, da meine Datei nur 300 MB groß ist. Wenn ich jedoch versuche, Spark RDD mit @ in Panda DataFrame zu ...