Como treinar o Word2vec em conjuntos de dados muito grandes?

Question

Jun 01, 2015, 02:46 PM

Como treinar o Word2vec em conjuntos de dados muito grandes?

Estou pensando em treinar o word2vec em enormes dados em grande escala com mais de 10 TB + de tamanho no despejo de rastreamento da web.

Treinei pessoalmente o dump do GoogleNews-2012 de implementação (1,5 gb) no meu iMac levou cerca de 3 horas para treinar e gerar vetores (impressionados com a velocidade). Porém, eu não tentei a implementação do python :( Li em algum lugar que a geração de vetores no wiki dump (11gb) de 300 vetores leva cerca de 9 dias para gerar.

Como acelerar o word2vec? Preciso usar modelos distribuídos ou que tipo de hardware preciso dentro de 2 a 3 dias? Eu tenho o iMac com 8GB de RAM.

Qual é o mais rápido? Python Gensim ou implementação C?

Vejo que a implementação do word2vec não suporta o treinamento da GPU.