Pig & Cassandra & DataStax Splits Control

Eu tenho usado Pig com meus dados do Cassandra para fazer todos os tipos de feitos incríveis de agrupamentos que seriam quase impossíveis de escrever imperativamente. Eu estou usando a integração do DataStax do Hadoop & Cassandra, e devo dizer que é bastante impressionante. Hat-off para aqueles caras !!

Eu tenho um cluster de sandbox muito pequeno (2 nós) onde eu estou colocando este sistema através de alguns testes. Eu tenho uma tabela CQL que tem ~ 53M linhas (cerca de 350 bytes ea.), E percebo que o Mapper depois leva muito tempo para moer através dessas linhas 53M. Eu comecei a vasculhar os logs e posso ver que o mapa está derramando repetidamente (eu vi 177 derrames do mapeador), e acho que isso é parte do problema.

A combinação de CassandraInputFormat e JobConfig cria apenas um único mapeador, portanto, esse mapeador deve ler 100% das linhas da tabela. Eu chamo issoanti-paralelo:)

Agora, há muitas engrenagens em ação nesta foto, incluindo:

2 nós físicosO nó hadoop está em um DC "Analytics" (configuração padrão), mas fisicamente no mesmo rack.Eu posso ver o trabalho usando LOCAL_QUORUM

Alguém pode me apontar na direção de como obter Pig para criar mais InputSplits para poder rodar mais mapeadores? Eu tenho 23 slots; Parece uma pena só usar um o tempo todo.

Ou estou completamente louco e não entendo o problema? Congratulo-me com os dois tipos de respostas!

questionAnswers(3)

yourAnswerToTheQuestion