Suchergebnisse für Anfrage "apache-spark"

16 die antwort

CSV abrufen, um Datenframe zu aktivieren

Ich verwende Python für Spark und möchte eine CSV in einen Datenframe einbinden. DasDokumentatio [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] for Spark SQL bietet seltsamerweise keine Erklärungen für CSV als ...

6 die antwort

Understanding Spark's Caching

Ich versuche zu verstehen, wie der Cache von Spark funktioniert. Hier ist mein naives Verständnis, lass es mich wissen, wenn mir etwas fehlt: val rdd1 = sc.textFile("some data") rdd1.cache() //marks rdd1 as cached val rdd2 = rdd1.filter(...) ...

8 die antwort

Berechnung der Durchschnittswerte für jeden KEY in einem paarweisen (K, V) RDD in Spark mit Python

Ich möchte diesen speziellen Apache Spark mit Python-Lösungen teilen, da die Dokumentation dafür ziemlich schlecht ist. Ich wollte den Durchschnittswert von K / V-Paaren (in einem paarweisen RDD gespeichert) mit KEY berechnen. So sehen die ...

TOP-Veröffentlichungen

2 die antwort

Wie kann man jedes Element in der RDD mit jedem anderen Element in der RDD vergleichen?

Ich versuche, eine Suche nach einem K-nächsten Nachbarn mit Hilfe eines Funkens durchzuführen. Ich habe eine RDD [Seq [Double]] und ich plane, eine RDD [(Seq [Double], Seq [Seq [Double]])] mit der aktuellen Zeile und einer Liste der ...

8 die antwort

java.sql.SQLException: Beim Laden von DataFrame in Spark SQL wurde kein geeigneter Treiber gefunden

Ich habe ein sehr seltsames Problem, wenn ich versuche, JDBC DataFrame in Spark SQL zu laden. Ich habe verschiedene Spark-Cluster ausprobiert - YARN, Standalone-Cluster und Pseudo-Distributed-Modus auf meinem Laptop. Es ist auf Spark 1.3.0 und ...

10 die antwort

erteiltes Webcrawlen mit Apache Spark - Ist das möglic

Eine interessante Frage, die mir gestellt wurde, als ich an einem Interview zum Thema Web Mining teilnahm. Die Frage war, ist es möglich, die Websites mit Apache Spark zu crawlen? Ich vermutete, dass es möglich war, weil es die verteilte ...

8 die antwort

Wie werden im Standalone-Cluster-Modus mehr Executor pro Worker zugewiesen?

Ich verwende Spark 1.3.0 in einem Cluster mit 5 Arbeitsknoten mit jeweils 36 Kernen und 58 GB Arbeitsspeicher. Ich möchte Spark's Standalone-Cluster mit vielen Executoren pro Worker konfigurieren. Ich habe die zusammengeführten @ geseh ...

2 die antwort

Spark Streaming-Datenaustausch zwischen Stapeln

Spark Streaming verarbeitet die Daten in Mikro-Batches. Jede Intervalldaten werden mithilfe von RDDs parallel verarbeitet, ohne dass Daten zwischen den einzelnen Intervallen ausgetauscht werden. Aber mein Anwendungsfall muss die Daten zwischen ...

4 die antwort

Wie verhält sich die Option --total-executor-cores mit spark-submit?

Ich führe einen Spark-Cluster über C ++ - Code aus, der in Python eingebunden ist. Ich teste derzeit verschiedene Konfigurationen von Multithreading-Optionen (auf Python- oder Spark-Ebene). Ich verwende Spark mit eigenständigen Binärdateien ...

4 die antwort

Apache Hadoop Yarn - Unterauslastung der Kerne

Egal wie viel ich mit den einstellungen in @ bastyarn-site.xml d. h. mit allen folgenden Optionen yarn.scheduler.minimum-allocation-vcores yarn.nodemanager.resource.memory-mb yarn.nodemanager.resource.cpu-vcores ...