Kontrola podziałów między Pig & Cassandra i DataStax

Question

Oct 24, 2013, 10:01 PM

datastax cassandra datastax-enterprise hadoop apache-pig

Kontrola podziałów między Pig & Cassandra i DataStax

Używam Pig z moimi danymi Cassandry, aby wykonywać wszystkie niesamowite zawody grup, które byłyby prawie niemożliwe do napisania. Korzystam z integracji Hadoop i Cassandry z DataStax i muszę powiedzieć, że jest to imponujące. Hat-off do tych facetów !!

Mam dość mały klaster piaskownicy (2 węzły), w którym wprowadzam ten system do kilku testów. Mam tabelę CQL, która ma ~ 53M wierszy (około 350 bajtów ea.) I zauważam, że Mapper później zajmuje bardzo dużo czasu, aby przejść przez te 53M wiersze. Zacząłem szturchać logi i widzę, że mapa się rozlewa (zobaczyłem 177 wycieków z programu mapującego) i myślę, że to jest część problemu.

Połączenie CassandraInputFormat i JobConfig tworzy tylko pojedynczy program odwzorowujący, więc ten program odwzorowujący musi odczytać 100% wierszy z tabeli. Nazywam toantyrównoległe:)

Na tym zdjęciu działa wiele narzędzi, w tym:

2 fizyczne węzłyWęzeł hadoop znajduje się w DC „Analytics” (domyślna konfiguracja), ale fizycznie w tej samej szafie.Widzę zadanie za pomocą LOCAL_QUORUM

Czy ktoś może wskazać mi, w jaki sposób zmusić Pig do stworzenia większej ilości danych wejściowychDzieli się więc mogę uruchomić więcej mapperów? Mam 23 sloty; Szkoda tylko używać go cały czas.

Czy jestem całkowicie szalony i nie rozumiem problemu? Z zadowoleniem przyjmuję oba rodzaje odpowiedzi!