Ressourcen / Dokumentation zur Funktionsweise des Failovers für den Spark-Treiber (und dessen YARN-Container) im Garn-Cluster-Modus

Question

Jan 18, 2015, 01:29 PM

Ressourcen / Dokumentation zur Funktionsweise des Failovers für den Spark-Treiber (und dessen YARN-Container) im Garn-Cluster-Modus

Ich versuche zu verstehen, ob der Spark-Treiber eine einzelne Fehlerquelle darstellt, wenn er im Cluster-Modus für Yarn bereitgestellt wird. Daher möchte ich die Innereien des Failover-Prozesses in Bezug auf den YARN-Container des Spark-Treibers in diesem Zusammenhang besser verstehen.

Ich weiß, dass der Spark-Treiber im Spark-Anwendungsmaster in einem Garncontainer ausgeführt wird. Der Spark Application Master fordert bei Bedarf Ressourcen beim YARN Resource Manager an. Ich konnte jedoch kein Dokument mit genügend Details zum Failover-Prozess finden, falls der YARN-Container des Spark-Anwendungsmasters (und des Spark-Treibers) ausfällt.

Ich versuche, einige detaillierte Ressourcen herauszufinden Dadurch kann ich einige Fragen zum folgenden Szenario beantworten: Wenn der Hostcomputer des YARN-Containers, auf dem der Spark-Anwendungsmaster / Spark-Treiber ausgeführt wird, die Netzwerkverbindung für 1 Stunde verliert:

Erzeugt der YARN Resource Manager einen neuen YARN Container mit einem anderen Spark Application Master / Spark Driver?

In diesem Fall (Erzeugen eines neuen YARN-Containers) wird der Spark-Treiber neu gestartet, wenn mindestens eine Stufe in 1 der Executors abgeschlossen und dem ursprünglichen Treiber als solche gemeldet wurde, bevor er fehlschlug? Macht die in persist () verwendete Option hier einen Unterschied? Und wird der neue Spark Driver wissen, dass der Testamentsvollstrecker eine Stufe abgeschlossen hat? Würde Tachyon in diesem Szenario helfen?

Wird ein Failback-Prozess ausgelöst, wenn die Netzwerkverbindung auf dem Host-Computer des YARN-Containers des ursprünglichen Spark-Anwendungsmasters wiederhergestellt wird? Ich vermute, dass dieses Verhalten über YARN gesteuert werden kann, aber ich weiß nicht, wie die Standardeinstellung lautet, wenn SPARK im Cluster-Modus bereitgestellt wird.

Ich würde es wirklich begrüßen, wenn Sie mich auf einige Dokumente / Webseiten hinweisen könnten, in denen die Architektur von Spark im Garncluster-Modus und der Failover-Prozess ausführlich erläutert werden.