Свинья и Кассандра и DataStax разделение контроля

Я использовал Pig со своими данными Cassandra, чтобы совершать всевозможные удивительные подвиги группировок, которые было бы практически невозможно написать настоятельно. Я использую интеграцию DataStax с Hadoop & Cassandra, и должен сказать, что это впечатляет. Снимаю шляпу перед этими парнями !!

У меня довольно маленький кластер с песочницей (2 узла), где я тестирую эту систему. У меня есть таблица CQL, в которой ~ 53M строк (около 350 байт и т. Д.), И я заметил, что Mapper позже очень долго обрабатывает эти 53M строк. Я начал ковыряться в бревнах, и я вижу, что карта разливается неоднократно (я видел 177 разливов из картографа), и я думаю, что это является частью проблемы.

Комбинация CassandraInputFormat и JobConfig создает только один преобразователь, поэтому этот преобразователь должен прочитать 100% строк таблицы. Я называю этоанти-параллельный:)

Сейчас на этой картине работает много механизмов, в том числе:

2 физических узлаУзел hadoop находится в DC "Analytics" (конфигурация по умолчанию), но физически в той же стойке.Я вижу работу, используя LOCAL_QUORUM

Кто-нибудь может указать мне в направлении, как заставить свинью создать больше вводаРазделяет чтобы я мог запустить больше картографов? У меня 23 слота; Кажется, жалко использовать только один раз.

Или я полностью злюсь и не понимаю проблемы? Я приветствую оба вида ответов!

Ответы на вопрос(3)

Ваш ответ на вопрос