Понимание этого сценария Панды

Question

Nov 03, 2013, 12:15 AM

Понимание этого сценария Панды

Я получил этот код для группировки данных в данные типа гистограммы. Я пытался понять код в этом сценарии панд, чтобы редактировать, манипулировать и дублировать его. У меня есть комментарии к разделам, которые я понимаю.

Код

import numpy as np
import pandas as pd


column_names = ['col1', 'col2', 'col3', 'col4', 'col5', 'col6', 
              'col7', 'col8', 'col9', 'col10', 'col11'] #names to be used as column labels.  If no names are specified then columns can be refereed to by number eg. df[0], df[1] etc.

df = pd.read_csv('data.csv', header=None, names=column_names) #header= None means there are no column headings in the  csv file

df.ix[df.col11 == 'x', 'col11']=-0.08 #trick so that 'x' rows will be grouped into a category >-0.1 and <= -0.05.  This will allow all of col11 to be treated as a numbers

bins = np.arange(-0.1, 1.0, 0.05) #bins to put col11 values in.  >-0.1 and <=-0.05 will be our special 'x' rows, >-0.05 and <=0 will capture all the '0' values.
labels = np.array(['%s:%s' % (x, y) for x, y in zip(bins[:-1], bins[1:])]) #create labels for the bins
labels[0] = 'x' #change first bin label to 'x'
labels[1] = '0' #change second bin label to '0'

df['col11'] = df['col11'].astype(float) #convert col11 to numbers so we can do math on them


df['bin'] = pd.cut(df['col11'], bins=bins, labels=False) # make another column 'bins' and put in an integer representing what bin the number falls into.Later we'll map the integer to the bin label


df.set_index('bin', inplace=True, drop=False, append=False) #groupby is meant to run faster with an index

def count_ones(x):
    """aggregate function to count values that equal 1"""
    return np.sum(x==1)

dfg = df[['bin','col7','col11']].groupby('bin').agg({'col11': [np.mean], 'col7': [count_ones, len]})
dfg.index = labels[dfg.index]

dfg.ix['x',('col11', 'mean')]='N/A'
print(dfg)
dfg.to_csv('new.csv')

Раздел, который я действительно изо всех сил пытаюсь понять, находится в этом разделе:

def count_ones(x):
    """aggregate function to count values that equal 1"""
    return np.sum(x==1)

dfg = df[['bin','col7','col11']].groupby('bin').agg({'col11': [np.mean], 'col7': [count_ones, len]})
dfg.index = labels[dfg.index]

dfg.ix['x',('col11', 'mean')]='N/A'
print(dfg)
dfg.to_csv('new.csv')

Если кто-то сможет прокомментировать этот сценарий, я буду очень признателен. Также не стесняйтесь исправлять или добавлять мои комментарии (это то, что я предполагаю, что они могут быть неверными). Я надеюсь, что это не слишком не по теме для SOF. Я с удовольствием предоставлю вознаграждение в 50 баллов любому пользователю, который может помочь мне в этом.

Понимание этого сценария Панды

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Понимание этого сценария Панды

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы