¿Por qué mi servidor de Zookeeper no puede unirse al Quórum?

Tengo tres servidores en mi quórum. Están ejecutando ZooKeeper 3.4.5. Dos de ellos parecen estar funcionando bien según la salida demntr. Uno de ellos se reinició hace un par de días debido a un despliegue, y desde entonces no ha podido unirse al quórum. Algunas líneas en los registros que sobresalen son:

2014-03-03 18:44:40,995 [myid:1] - INFO  [main:QuorumPeer@429] - currentEpoch not found! Creating with a reasonable default of 0. This should only happen when you are upgrading your installation

y:

2014-03-03 18:44:41,233 [myid:1] - INFO  [QuorumPeer[myid=1]/0.0.0.0:2181:QuorumCnxManager@190] - Have smaller server identifier, so dropping the connection: (2, 1)
2014-03-03 18:44:41,234 [myid:1] - INFO  [QuorumPeer[myid=1]/0.0.0.0:2181:QuorumCnxManager@190] - Have smaller server identifier, so dropping the connection: (3, 1)
2014-03-03 18:44:41,235 [myid:1] - INFO  [QuorumPeer[myid=1]/0.0.0.0:2181:FastLeaderElection@774] - Notification time out: 400

Buscar en Google por primera vez ('currentEpoch not found!') Me llevó a JIRAZOOKEEPER-1653: el cuidador del zoológico no se inicia debido a una época inconsistente. Describe una corrección de errores, pero no describe una forma de resolver el problema sin actualizar Zookeeper.

Buscar en Google el segundo ('Tener un identificador de servidor más pequeño, por lo que desconectar la conexión') me llevó a JIRAZOOKEEPER-1506 - Vuelva a intentar el nombre de host DNS -> Resolución IP si falla la conexión del nodo. Esto tiene sentido porque estoy usando AWS Elastic IP para los servidores. La solución para este problema parece ser hacer un reinicio continuo, lo que nos haría perder temporalmente el quórum.

Parece que el segundo problema definitivamente está en juego porque veo tiempos de espera en los otros registros del servidor de ZooKeeper (los que aún están en el quórum) cuando intento conectarme al primer servidor. De lo que no estoy seguro es si el primer problema desaparecerá cuando reinicie. Me gustaría evitar la actualización y / o hacer un reinicio continuo, pero si tengo que hacer un reinicio continuo, me gustaría evitar hacerlo varias veces. ¿Hay alguna forma de solucionar el primer problema sin actualizar? O incluso mejor: ¿hay alguna manera de resolver ambos problemas sin hacer un reinicio continuo?

¡Gracias por leer y por tu ayuda!

Respuestas a la pregunta(0)

Su respuesta a la pregunta