Pig & Cassandra & DataStax Splits Control

He estado usando Pig con mis datos de Cassandra para hacer todo tipo de increíbles hazañas de agrupaciones que serían casi imposibles de escribir de forma imperativa. Estoy usando la integración de DataStax de Hadoop y Cassandra, y debo decir que es bastante impresionante. ¡Quitárselo a esos chicos!

Tengo un grupo de sandbox bastante pequeño (2 nodos) donde estoy poniendo este sistema a través de algunas pruebas. Tengo una tabla CQL que tiene ~ 53M filas (alrededor de 350 bytes por año), y me doy cuenta de que el Mapper tarde mucho tiempo en triturar estas 53M filas. Comencé a hurgar en los registros y puedo ver que el mapa se está derramando repetidamente (vi 177 derrames del mapeador), y creo que esto es parte del problema.

La combinación de CassandraInputFormat y JobConfig solo crea un solo mapeador, por lo que este mapeador debe leer el 100% de las filas de la tabla. Yo llamo a estoanti-paralelo:)

Ahora, hay muchos engranajes en funcionamiento en esta imagen, incluyendo:

2 nodos físicosEl nodo hadoop está en un DC "Analytics" (configuración predeterminada), pero físicamente en el mismo bastidor.Puedo ver el trabajo usando LOCAL_QUORUM

¿Alguien puede indicarme cómo hacer que Pig cree más datos?Divisiones ¿Así que puedo correr más mapeadores? Tengo 23 ranuras; Parece una pena usar solo uno todo el tiempo.

O, ¿estoy completamente enojado y no entiendo el problema? ¡Doy la bienvenida a ambos tipos de respuestas!