найти среднее значение с помощью свиньи или Hadoop

У меня есть огромный текстовый файл формы

данные сохраняются в каталоге data / data1.txt, data2.txt и т. д.

merchant_id, user_id, amount
1234, 9123, 299.2
1233, 9199, 203.2
 1234, 0124, 230
 and so on..

Что я хочу сделать, это для каждого продавца, найти среднюю сумму ..

так что, в конце концов, я хочу сохранить вывод в файл. что-то вроде

 merchant_id, average_amount
  1234, avg_amt_1234 a
  and so on.

Как рассчитать стандартное отклонение?

Извините, что задали такой простой вопрос. :( Любая помощь будет оценена. :)