Afunilamento de biblioteca compartilhada na máquina NUMA

Estou usando uma máquina NUMA (um SGI UV 1000) para executar um grande número de simulações numéricas ao mesmo tempo, cada uma delas é uma tarefa OpenMP usando 4 núcleos. No entanto, a execução de mais de 100 desses trabalhos resulta em um impacto significativo no desempenho. Nossa teoria sobre por que isso acontece é que as bibliotecas compartilhadas exigidas pelo software são carregadas apenas uma vez na memória global da máquina, e o sistema está experimentando um gargalo de comunicação, já que todos os processos estão acessando a memória em um único nó.

É um software antigo, limitado a nenhum escopo de modificação, e a opção de make estático não vincula estaticamente todas as bibliotecas necessárias. A solução mais conveniente, pelo que eu vejo, seria de alguma forma forçar o sistema a carregar uma nova cópia das bibliotecas compartilhadas necessárias em cada processo ou nó (em cada um dos quais eu estou executando 3 processos), mas eu não tenho foi capaz de descobrir como fazer isso. Alguém pode me dizer como fazer isso, ou tem alguma outra sugestão sobre como resolver esse problema?

questionAnswers(1)

yourAnswerToTheQuestion