Os nós do JBoss 4.2.2 começam a se agrupar e depois suspeitam um do outro

Eu tenho um site rodando com o JBoss 4.2.2 em um servidor Red Hat existente. Estou configurando um segundo servidor para ter um par em cluster (que será balanceado por carga). No entanto, não consigo agrupá-los com êxito.

O servidor existente inicia o JBoss com:

run.sh -c default -b

(Eu sei que a configuração 'padrão' não suporta clustering imediatamente - estou usando uma versão modificada que inclui suporte para clustering). Quando inicio a segunda instância do JBoss com o mesmo comando, ele forma seu próprio cluster sem perceber o primeiro. Ambos usam o mesmo nome de partição e endereço e porta multicast.

Eu tentei os programas McastReceiverTest e McastSenderTest para verificar se as máquinas podiam se comunicar por multicast; eles poderiam.

Notei a informação emhttp://docs.jboss.org/jbossas/docs/Clustering_Guide/beta422/html/ch07s07s07.html, dizendo que os JGroups não podem se conectar atudo interfaces e, em vez disso, vincula-se à interface padrão; presumivelmente, era vinculativo ao e, portanto, não transmitia as mensagens. Então, em vez disso, defino as instâncias para dizer ao JGroups para usar os IPs internos:

run.sh -c default -b -Djgroups.bind_addr=
run.sh -c default -b -Djgroups.bind_addr=

(.131 é o servidor existente, .141 é o novo servidor).

Os nós agora se notam e formam um cluster - primeiro. No entanto, ao tentar implantar o .ear, o log do servidor diz o seguinte:

2010-08-07 22:26:39,321 DEBUG [org.jgroups.protocols.FD] sending are-you-alive msg to (own address=
2010-08-07 22:26:45,412 WARN  [org.jgroups.protocols.FD] I was suspected by; ignoring the SUSPECT message and sending back a HEARTBEAT_ACK
2010-08-07 22:26:49,324 DEBUG [org.jgroups.protocols.FD] sending are-you-alive msg to (own address=
2010-08-07 22:26:49,324 DEBUG [org.jgroups.protocols.FD] heartbeat missing from (number=0)
2010-08-07 22:26:49,529 DEBUG [org.jgroups.protocols.MERGE2] initial_mbrs=[[own_addr=, coord_addr=, is_server=true]]
2010-08-07 22:26:52,092 WARN  [org.jboss.cache.TreeCache] replication failure with method_call optimisticPrepare; id:18; Args: ( arg[0] = GlobalTransaction:<>:5421085 ...) exception org.jboss.cache.lock.TimeoutException: failure acquiring lock: fqn=/Yudu_ear,Yudu-ejb_jar,Yudu-ejbPU/com/yudu/ejb/entity, caller=GlobalTransaction:<>:5421085, lock=read owners=[GlobalTransaction:<>:5421081] (activeReaders=1, activeWriter=null, waitingReaders=0, waitingWriters=1, waitingUpgrader=0)

... e o .ear falha ao implantar.

Se eu alterar o CacheMode no ejb3-entity-cache-service.xml de REPL_SYNC para LOCAL, o .ear será implementado corretamente, embora, é claro, a replicação do cache da entidade não ocorra. No entanto, o log ainda mostra sinais interessantes do mesmo problema.

Parece que:

primeiro, o novo nó encontra o existente e forma um clusteras verificações do FD falham e, após um número definido de falhas, o novo nó se separa do cluster e forma seu próprio cluster de umdepois o encontra novamente, agrupa novamente e, desta vez, o FD verifica o trabalho.

Bits relevantes do arquivo de log:

2010-08-07 23:47:07,423 INFO  [org.jgroups.protocols.UDP] socket information: local_addr=, mcast_addr=, bind_addr=/, ttl=2 sock: bound to, receive buffer size=131071, send buffer size=131071 mcast_recv_sock: bound to, send buffer size=131071, receive buffer size=131071 mcast_send_sock: bound to, send buffer size=131071, receive buffer size=131071
2010-08-07 23:47:07,431 DEBUG [org.jgroups.protocols.UDP] created unicast receiver thread
2010-08-07 23:47:09,445 DEBUG [org.jgroups.protocols.pbcast.GMS] initial_mbrs are [[own_addr=, coord_addr=, is_server=true]]
2010-08-07 23:47:09,446 DEBUG [org.jgroups.protocols.pbcast.GMS] election results: {}
2010-08-07 23:47:09,446 DEBUG [org.jgroups.protocols.pbcast.GMS] sending handleJoin( to
2010-08-07 23:47:09,751 DEBUG [org.jgroups.protocols.pbcast.GMS] []: JoinRsp=[|61] [,] [size=2]
2010-08-07 23:47:09,752 DEBUG [org.jgroups.protocols.pbcast.GMS] new_view=[|61] [,]
2010-08-07 23:47:10,047 INFO  [org.jboss.ha.framework.interfaces.HAPartition.DefaultPartition] Number of cluster members: 2
2010-08-07 23:47:10,047 INFO  [org.jboss.ha.framework.interfaces.HAPartition.DefaultPartition] Other members: 1
2010-08-07 23:47:20,034 DEBUG [org.jgroups.protocols.FD] sending are-you-alive msg to (own address=
2010-08-07 23:47:30,037 DEBUG [org.jgroups.protocols.FD] sending are-you-alive msg to (own address=
2010-08-07 23:47:30,038 DEBUG [org.jgroups.protocols.FD] heartbeat missing from (number=0)
2010-08-07 23:47:40,040 DEBUG [org.jgroups.protocols.FD] sending are-you-alive msg to (own address=
2010-08-07 23:47:40,040 DEBUG [org.jgroups.protocols.FD] heartbeat missing from (number=1)
2010-08-07 23:48:19,758 WARN  [org.jgroups.protocols.FD] I was suspected by; ignoring the SUSPECT message and sending back a HEARTBEAT_ACK
2010-08-07 23:48:20,054 DEBUG [org.jgroups.protocols.FD] sending are-you-alive msg to (own address=
2010-08-07 23:48:20,055 DEBUG [org.jgroups.protocols.FD] []: received no heartbeat ack from for 6 times (60000 milliseconds), suspecting it
2010-08-07 23:48:20,058 DEBUG [org.jgroups.protocols.FD] broadcasting SUSPECT message [suspected_mbrs=[]] to group
2010-08-07 23:48:21,691 DEBUG [org.jgroups.protocols.pbcast.NAKACK] removing from received_msgs (not member anymore)
2010-08-07 23:48:21,691 INFO  [org.jboss.ha.framework.server.DistributedReplicantManagerImpl.DefaultPartition] I am ( received membershipChanged event:
2010-08-07 23:48:21,691 INFO  [org.jboss.ha.framework.server.DistributedReplicantManagerImpl.DefaultPartition] Dead members: 0 ([])
2010-08-07 23:48:21,691 INFO  [org.jboss.ha.framework.server.DistributedReplicantManagerImpl.DefaultPartition] New Members : 0 ([])
2010-08-07 23:48:21,691 INFO  [org.jboss.ha.framework.server.DistributedReplicantManagerImpl.DefaultPartition] All Members : 1 ([])
2010-08-07 23:49:59,793 WARN  [org.jgroups.protocols.FD] I was suspected by; ignoring the SUSPECT message and sending back a HEARTBEAT_ACK
2010-08-07 23:50:09,796 WARN  [org.jgroups.protocols.FD] I was suspected by; ignoring the SUSPECT message and sending back a HEARTBEAT_ACK
2010-08-07 23:50:19,144 DEBUG [org.jgroups.protocols.FD] Recevied Ack. is invalid (was from:,
2010-08-07 23:50:19,144 DEBUG [org.jgroups.protocols.FD] Recevied Ack. is invalid (was from:,
2010-08-07 23:50:21,791 DEBUG [org.jgroups.protocols.pbcast.GMS] new=[], suspected=[], leaving=[], new view: [|63] [,]
2010-08-07 23:50:21,792 DEBUG [org.jgroups.protocols.pbcast.GMS] view=[|63] [,]
2010-08-07 23:50:21,792 DEBUG [org.jgroups.protocols.pbcast.GMS] [local_addr=] view is [|63] [,]
2010-08-07 23:50:21,822 INFO  [org.jboss.ha.framework.interfaces.HAPartition.lifecycle.DefaultPartition] New cluster view for partition DefaultPartition (id: 63, delta: 1) : [,]
2010-08-07 23:50:21,822 DEBUG [org.jboss.ha.framework.interfaces.HAPartition.DefaultPartition] membership changed from 1 to 2
2010-08-07 23:50:31,825 DEBUG [org.jgroups.protocols.FD] sending are-you-alive msg to (own address=
2010-08-07 23:50:31,832 DEBUG [org.jgroups.protocols.FD] received ack from

Mas não consigo entender por que as verificações de FD falham na primeira vez; e, embora pareça agrupar-se com o outro nó, a falha inicial parece ser suficiente para atrapalhar a implantação quando ela tenta compartilhar o estado da entidade e, assim, impedir que ela realmente funcione de uma maneira útil.

Se alguém puder esclarecer isso, ficarei muito agradecido!