¿Cómo importo desde un archivo CSV Unicode (UTF-8) a una matriz numpy?

Question

Aug 02, 2011, 01:06 PM

¿Cómo importo desde un archivo CSV Unicode (UTF-8) a una matriz numpy?

No estoy tratando de hacerlo de manera inteligente o rápida, solo estoy tratando de hacerlo en absoluto.

tengo un archivo que se ve así:

$ cat all_user_token_counts.csv  
@5raphaels,in,15
@5raphaels,for,15
@5raphaels,unless,11
@5raphaels,you,11

sé que está codificado utf-8 sin codificar porque lo creé, como este

    debug('opening ' + ALL_USER_TOKEN_COUNTS_FILE)
    file = codecs.open(ALL_USER_TOKEN_COUNTS_FILE, encoding="utf-8",mode= "w")
    for (user, token) in tokenizer.get_tokens_from_all_files():
        #... count tokens ..
        file.write(unicode(username +","+ token +","+ str(count) +"\r\n"))

Quiero leerlo en una matriz numpy para que se vea así, o algo así ...

   array([[u'@5raphaels', u'in', 15],
          [u'@5raphaels', u'for', 11],
          [u'@5raphaels', u'unless', 11]], 
          dtype=('<U10', '<U10', int))

A medida que experimento en el proceso de escribir esta pregunta, ¿se me ocurre que ni siquiera es posible? Si es así, ¡me encantaría saberlo!

¡Gracias por adelantado