agrupando em uma matriz esparsa muito grande?

Estou tentando fazer alguns agrupamentos (k-means) em uma matriz muito grande.

A matriz é de aproximadamente 500000 linhas x 4000 colunas, mas muito escassa (apenas alguns valores "1" por linha). Eu quero obter cerca de 2000 clusters.

Eu tenho duas perguntas: - Alguém pode recomendar uma plataforma ou ferramenta de código aberto para fazer isso (talvez usando k-means, talvez com algo melhor)? - Como posso estimar melhor o tempo que o algoritmo precisará terminar? Eu tentei weka uma vez, mas abortei o trabalho depois de alguns dias porque não sabia quanto tempo levaria.

Obrigado!

questionAnswers(3)

yourAnswerToTheQuestion