Algum bom recurso em padrões de design para arquiteturas paralelas?

Um pouco de fundo:

Estou começando com o GPGPU (OpenCL), estou usando um wrapper java (jogamp.jocl) esperando que ele me forneça uma maneira de abstrair o nível básico e usar o OOP padrão em níveis mais altos. Já posso ver nos vários exemplos do Hello World que terei que gerenciar as filas pessoalmente.

Minha pergunta:

Existem padrões conhecidos para GPGPU ou bons recursos (como nos livros) sobre padrões de design para arquiteturas massivamente paralelas em geral?

Meu foco é em simulações biológicas, mas realmente não deve fazer a diferença.

questionAnswers(2)

yourAnswerToTheQuestion