numpy corrcoef - calcula a matriz de correlação enquanto ignora os dados ausentes
Eu estou tentando calcular uma matriz de correlação de vários valores. Esses valores incluem alguns valores 'nan'. Estou usando numpy.corrcoef. Para o elemento (i, j) da matriz de correlação de saída, gostaria de ter a correlação calculada usando todos os valores existentes para a variável ie a variável j.
Isto é o que eu tenho agora:
In[20]: df_counties = pd.read_sql("SELECT Median_Age, Rpercent_2008, overall_LS, population_density FROM countyVotingSM2", db_eng)
In[21]: np.corrcoef(df_counties, rowvar = False)
Out[21]:
array([[ 1. , nan, nan, -0.10998411],
[ nan, nan, nan, nan],
[ nan, nan, nan, nan],
[-0.10998411, nan, nan, 1. ]])
Nan's demais :(