Recursos / Documentação sobre como o processo de failover funciona para o Spark Driver (e seu YARN Container) no modo de cluster de fios

Estou tentando entender se o Spark Driver é um ponto único de falha ao implantar no modo de cluster para o Yarn. Então, eu gostaria de ter uma melhor compreensão das entranhas do processo de failover em relação ao contêiner YARN do driver Spark nesse contexto.

Eu sei que o Spark Driver será executado no Spark Application Master dentro de um Yarn Container. O Spark Application Master solicitará recursos ao YARN Resource Manager, se necessário. Mas não consegui encontrar um documento com detalhes suficientes sobre o processo de failover no caso de falha do contêiner YARN do Spark Application Master (e driver Spark).

Estou tentando descobrir alguns recursos detalhados que me permite responder a algumas perguntas relacionadas ao seguinte cenário: Se a máquina host do contêiner YARN que executa o Spark Application Master / Spark Driver perder a conectividade de rede por 1 hora:

O YARN Resource Manager gera um novo contêiner YARN com outro Driver Spark Application Master / Spark?

Nesse caso (gerando um novo contêiner YARN), ele inicia o Spark Driver do zero se pelo menos 1 estágio em 1 dos Executores tiver sido concluído e notificado como tal ao Driver original antes de falhar? A opção usada em persist () faz diferença aqui? E o novo Spark Driver saberá que o executor completou 1 etapa? Tachyon ajudaria nesse cenário?

Um processo de failback é acionado se a conectividade de rede for recuperada na máquina host do YARN Containers do Spark Application Master original? Acho que esse comportamento pode ser controlado pelo YARN, mas não sei qual é o padrão ao implantar o SPARK no modo de cluster.

Eu realmente aprecio isso se você puder me indicar alguns documentos / páginas da web em que a arquitetura do Spark no modo de cluster de fios e o processo de failover são explorados em detalhes.

questionAnswers(1)

yourAnswerToTheQuestion