numpy corrcoef - calcula a matriz de correlação enquanto ignora os dados ausentes

Question

Jul 24, 2015, 10:51 PM

numpy corrcoef - calcula a matriz de correlação enquanto ignora os dados ausentes

Eu estou tentando calcular uma matriz de correlação de vários valores. Esses valores incluem alguns valores 'nan'. Estou usando numpy.corrcoef. Para o elemento (i, j) da matriz de correlação de saída, gostaria de ter a correlação calculada usando todos os valores existentes para a variável ie a variável j.

Isto é o que eu tenho agora:

In[20]: df_counties = pd.read_sql("SELECT Median_Age, Rpercent_2008, overall_LS, population_density FROM countyVotingSM2", db_eng)
In[21]: np.corrcoef(df_counties, rowvar = False)
Out[21]: 
array([[ 1.        ,         nan,         nan, -0.10998411],
       [        nan,         nan,         nan,         nan],
       [        nan,         nan,         nan,         nan],
       [-0.10998411,         nan,         nan,  1.        ]])

Nan's demais :(