Suchergebnisse für Anfrage "apache-spark"
CSV abrufen, um Datenframe zu aktivieren
Ich verwende Python für Spark und möchte eine CSV in einen Datenframe einbinden. DasDokumentatio [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] for Spark SQL bietet seltsamerweise keine Erklärungen für CSV als ...
Understanding Spark's Caching
Ich versuche zu verstehen, wie der Cache von Spark funktioniert. Hier ist mein naives Verständnis, lass es mich wissen, wenn mir etwas fehlt: val rdd1 = sc.textFile("some data") rdd1.cache() //marks rdd1 as cached val rdd2 = rdd1.filter(...) ...
Berechnung der Durchschnittswerte für jeden KEY in einem paarweisen (K, V) RDD in Spark mit Python
Ich möchte diesen speziellen Apache Spark mit Python-Lösungen teilen, da die Dokumentation dafür ziemlich schlecht ist. Ich wollte den Durchschnittswert von K / V-Paaren (in einem paarweisen RDD gespeichert) mit KEY berechnen. So sehen die ...
Wie kann man jedes Element in der RDD mit jedem anderen Element in der RDD vergleichen?
Ich versuche, eine Suche nach einem K-nächsten Nachbarn mit Hilfe eines Funkens durchzuführen. Ich habe eine RDD [Seq [Double]] und ich plane, eine RDD [(Seq [Double], Seq [Seq [Double]])] mit der aktuellen Zeile und einer Liste der ...
java.sql.SQLException: Beim Laden von DataFrame in Spark SQL wurde kein geeigneter Treiber gefunden
Ich habe ein sehr seltsames Problem, wenn ich versuche, JDBC DataFrame in Spark SQL zu laden. Ich habe verschiedene Spark-Cluster ausprobiert - YARN, Standalone-Cluster und Pseudo-Distributed-Modus auf meinem Laptop. Es ist auf Spark 1.3.0 und ...
erteiltes Webcrawlen mit Apache Spark - Ist das möglic
Eine interessante Frage, die mir gestellt wurde, als ich an einem Interview zum Thema Web Mining teilnahm. Die Frage war, ist es möglich, die Websites mit Apache Spark zu crawlen? Ich vermutete, dass es möglich war, weil es die verteilte ...
Wie werden im Standalone-Cluster-Modus mehr Executor pro Worker zugewiesen?
Ich verwende Spark 1.3.0 in einem Cluster mit 5 Arbeitsknoten mit jeweils 36 Kernen und 58 GB Arbeitsspeicher. Ich möchte Spark's Standalone-Cluster mit vielen Executoren pro Worker konfigurieren. Ich habe die zusammengeführten @ geseh ...
Spark Streaming-Datenaustausch zwischen Stapeln
Spark Streaming verarbeitet die Daten in Mikro-Batches. Jede Intervalldaten werden mithilfe von RDDs parallel verarbeitet, ohne dass Daten zwischen den einzelnen Intervallen ausgetauscht werden. Aber mein Anwendungsfall muss die Daten zwischen ...
Wie verhält sich die Option --total-executor-cores mit spark-submit?
Ich führe einen Spark-Cluster über C ++ - Code aus, der in Python eingebunden ist. Ich teste derzeit verschiedene Konfigurationen von Multithreading-Optionen (auf Python- oder Spark-Ebene). Ich verwende Spark mit eigenständigen Binärdateien ...
Apache Hadoop Yarn - Unterauslastung der Kerne
Egal wie viel ich mit den einstellungen in @ bastyarn-site.xml d. h. mit allen folgenden Optionen yarn.scheduler.minimum-allocation-vcores yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.cpu-vcores ...