Gensim word2vec en diccionario predefinido y datos de índices de palabras

Question

Mar 01, 2016, 12:20 PM

Gensim word2vec en diccionario predefinido y datos de índices de palabras

Necesito entrenar una representación de word2vec en tweets usando gensim. A diferencia de la mayoría de los tutoriales y el código que he visto en gensim, mis datos no están en bruto, pero ya han sido preprocesados. Tengo un diccionario en un documento de texto que contiene 65k palabras (incluido un token "desconocido" y un token EOL) y los tweets se guardan como una matriz numpy con índices en este diccionario. Un ejemplo simple del formato de datos se puede ver a continuación:

dict.txt

you
love
this
code

tweets (5 es desconocido y 6 es EOL)

[[0, 1, 2, 3, 6],
 [3, 5, 5, 1, 6],
 [0, 1, 3, 6, 6]]

No estoy seguro de cómo debo manejar la representación de los índices. Una manera fácil es convertir la lista de índices en una lista de cadenas (es decir, [0, 1, 2, 3, 6] -> ['0', '1', '2', '3', '6 ']) mientras lo leía en el modelo word2vec. Sin embargo, esto debe ser ineficiente ya que gensim intentará buscar el índice interno utilizado, p. '2'.

¿Cómo cargo estos datos y creo la representación de word2vec de manera eficiente usando gensim?