znalezienie średniej za pomocą świni lub hadoopa
Mam ogromny plik tekstowy formularza
dane są zapisywane w katalogu data / data1.txt, data2.txt i tak dalej
merchant_id, user_id, amount
1234, 9123, 299.2
1233, 9199, 203.2
1234, 0124, 230
and so on..
Chcę dla każdego kupca znaleźć średnią kwotę ..
tak zasadniczo w końcu chcę zapisać wyjście w pliku. coś jak
merchant_id, average_amount
1234, avg_amt_1234 a
and so on.
Jak obliczyć również odchylenie standardowe?
Przepraszam, że zadałem takie podstawowe pytanie. :( Każda pomoc byłaby doceniana. :)