найти среднее значение с помощью свиньи или Hadoop
У меня есть огромный текстовый файл формы
данные сохраняются в каталоге data / data1.txt, data2.txt и т. д.
merchant_id, user_id, amount
1234, 9123, 299.2
1233, 9199, 203.2
1234, 0124, 230
and so on..
Что я хочу сделать, это для каждого продавца, найти среднюю сумму ..
так что, в конце концов, я хочу сохранить вывод в файл. что-то вроде
merchant_id, average_amount
1234, avg_amt_1234 a
and so on.
Как рассчитать стандартное отклонение?
Извините, что задали такой простой вопрос. :( Любая помощь будет оценена. :)