Jak poprawić wydajność pracy świni, która ma bardzo przekrzywione dane?

Question

Oct 13, 2012, 12:15 AM

Jak poprawić wydajność pracy świni, która ma bardzo przekrzywione dane?

Używam skryptu świni, który wykonuje GROUP BY i zagnieżdżony FOREACH, który wymaga godzin do uruchomienia z powodu jednego lub dwóch zadań zmniejszania. Na przykład:

B = GROUP A BY (fld1, fld2) parallel 50;

C = FOREACH B {
   U = A.fld1;
   DIST = DISTINCT U;
   GENERATE FLATTEN(group), COUNT_STAR(DIST);
}

Po zbadaniu liczników dla wolnych zadań, zdałem sobie sprawę, że wygląda na to, że dwa reduktory przetwarzają dużo więcej danych niż inne zadania. Zasadniczo rozumiem, że dane są bardzo wypaczone, więc zadania, które są „powolne”, w rzeczywistości wykonują więcej pracy niż szybkie zadania. Zastanawiam się tylko, jak poprawić wydajność? Nienawidzę zwiększania paralelizmu, aby spróbować podzielić pracę, ale czy to jedyny sposób?

leaveComments

questionAnswers(1)

yourAnswerToTheQuestion

Popularne pytania

0 odpowiedzi

Maskuj tekst, ale nadal pozwalaj użytkownikom na jego kopiowanie

0 odpowiedzi

php - xml - losowy filtr i zapisz zamówienie

0 odpowiedzi

Prawidłowo wstaw ujemne liczby całkowite z zerami za pomocą std :: cout

0 odpowiedzi

wyjątek mod_rewrite dla określonego pliku

0 odpowiedzi

css - okrąg z marginesem na granicy