Pig & Cassandra & DataStax Splits Control

Question

Oct 24, 2013, 10:01 PM

hadoop datastax cassandra datastax-enterprise apache-pig

Pig & Cassandra & DataStax Splits Control

Ich habe Pig mit meinen Cassandra-Daten verwendet, um alle Arten von erstaunlichen Heldentaten von Gruppierungen zu vollbringen, die fast unmöglich zwingend zu schreiben wären. Ich verwende die Integration von Hadoop & Cassandra in DataStax, und ich muss sagen, dass sie ziemlich beeindruckend ist. Hut ab vor den Jungs !!

Ich habe einen ziemlich kleinen Sandbox-Cluster (2 Knoten), in dem ich dieses System durch einige Tests stelle. Ich besitze eine CQL-Tabelle mit ~ 53 Millionen Zeilen (ca. 350 Byte pro Jahr) und stelle fest, dass der Mapper später sehr lange braucht, um diese 53 Millionen Zeilen zu durchlaufen. Ich fing an, in den Protokollen zu stöbern, und ich kann sehen, dass die Karte wiederholt verschüttet wird (ich sah 177 Verschüttungen vom Mapper), und ich denke, das ist ein Teil des Problems.

Die Kombination von CassandraInputFormat und JobConfig erstellt nur einen einzelnen Mapper, sodass dieser Mapper 100% der Zeilen aus der Tabelle lesen muss. Ich nenne dasantiparallel:)

In diesem Bild sind viele Zahnräder in Betrieb, darunter:

2 physische KnotenDer Hadoop-Knoten befindet sich in einem "Analytics" -DC (Standardkonfiguration), jedoch physisch im selben Rack.Ich kann den Job mit LOCAL_QUORUM anzeigen

Kann mir jemand sagen, wie ich Pig dazu bringen kann, mehr Input zu erzeugen?Spaltungen Damit ich mehr Mapper ausführen kann? Ich habe 23 Steckplätze; Es scheint schade, immer nur einen zu verwenden.

Oder bin ich völlig verrückt und verstehe das Problem nicht? Ich begrüße beide Arten von Antworten!