Ресурсы / Документация о том, как работает процесс аварийного переключения для драйвера Spark (и его контейнера YARN) в режиме кластера пряжи

Я пытаюсь понять, является ли Spark Driver единственной точкой отказа при развертывании в режиме кластера для пряжи. Поэтому я хотел бы лучше понять внутреннюю часть процесса восстановления после отказа, касающуюся контейнера YARN драйвера искры в этом контексте.

Я знаю, что Spark Driver будет работать в Spark Application Master внутри контейнера пряжи. Мастер приложений Spark будет запрашивать ресурсы у менеджера ресурсов YARN, если это необходимо. Но мне не удалось найти документ с достаточным количеством сведений о процессе восстановления после сбоя в случае сбоя контейнера YARN мастера приложений Spark (и драйвера Spark).

Я пытаюсь выяснить некоторые подробные ресурсы это может позволить мне ответить на некоторые вопросы, относящиеся к следующему сценарию: Если хост-машина Контейнера YARN, на которой запускается Spark Application Master / Spark Driver, теряет сетевое подключение в течение 1 часа:

Создает ли менеджер ресурсов YARN новый контейнер YARN с другим мастером Spark Application / Spark?

В этом случае (порождая новый Контейнер YARN), запускает ли он Spark Driver с нуля, если хотя бы 1 этап в 1 из Исполнителей был завершен и уведомлен как таковой исходному Driver до того, как произошел сбой? Имеет ли значение параметр, используемый в persist (), здесь? И будет ли новый Spark Driver знать, что исполнитель прошел 1 этап? Поможет ли Тахион в этом сценарии?

Срабатывает ли процесс восстановления после сбоя, если сетевое соединение восстановлено на хост-машине Контейнера YARN исходного Spark Application Master? Я предполагаю, что этим поведением можно управлять из YARN, но я не знаю, что по умолчанию при развертывании SPARK в режиме кластера.

Я был бы очень признателен, если бы вы могли указать мне на некоторые документы / веб-страницы, на которых подробно рассматривается Архитектура Spark в режиме пряжи-кластера и процесс восстановления после отказа.

Ответы на вопрос(1)

Ваш ответ на вопрос