Nos pandas, como ler arquivos csv com listas em uma coluna?
Eu tenho um arquivo csv no qual algumas colunas se parecem com isso:
df = pd.DataFrame({'a':[['ID1','ID2','ID3'],['ID1','ID4'],[]],'b':[[8.6,1.3,2.5],[7.5,1.2],[]],'c':[[12,23,79],[42,10],[]]})
Out[1]: a b c
0 [ID1, ID2, ID3] [8.6, 1.3, 2.5] [12, 23, 79]
1 [ID1, ID4] [7.5, 1.2] [42, 10]
2 [] [] []
O fato é que quando eu li, compandas.read_csv
, Python considera essas colunas como strings. Existe uma maneira de passar como opção que seja uma lista de números nessas colunas? (talvez algunsdtype = something
)
PS: Eu posso fazer uma lista de compreensão comast.literal_eval
depois, mas demora um pouco, então prefiro tê-lo assim que ler o csv.
PS2: o arquivo csv original tem 600.000 linhas (é por isso que leva algum tempo paraliteral_eval
. Suas colunas contêm:
'ID of the project' 'postcode' 'city' 'len of the lists in the last 3 columns' 'ids of other projects' 'distance from initial project' 'jetlag from initial project'
object int string int list of strings list of floats list of ints