Spark-Jobs werden beendet, aber das Schließen der Anwendung dauert einige Zeit.

Erwartet, dass ein Spark-Job unter Verwendung von Scala ausgeführt wird. Alle Jobs werden pünktlich beendet. Einige INFO-Protokolle werden jedoch 20 bis 25 Minuten lang gedruckt, bevor der Job beendet wird.

Veröffentlichung weniger UI-Screenshots, die helfen können, das Problem zu verstehen.

Folgen dauert 4 Stufen:

Folgen ist die Zeit zwischen aufeinanderfolgenden Job-IDs

Ich verstehe nicht, warum zwischen beiden Job-IDs so viel Zeit liegt.

Folgend ist mein Code-Snippet:

    val sc = new SparkContext(conf)
for (x <- 0 to 10) {
  val zz = getFilesList(lin);
  val links = zz._1
  val path = zz._2
  lin = zz._3
  val z = sc.textFile(links.mkString(",")).map(t => t.split('\t')).filter(t => t(4) == "xx" && t(6) == "x").map(t => titan2(t)).filter(t => t.length > 35).map(t => ((t(34)), (t(35), t(5), t(32), t(33))))
  val way_nodes = sc.textFile(way_source).map(t => t.split(";")).map(t => (t(0), t(1)));
  val t = z.join(way_nodes).map(t => (t._2._1._2, Array(Array(t._2._1._2, t._2,._1._3, t._2._1._4, t._2._1._1, t._2._2)))).reduceByKey((t, y) => t ++ y).map(t => process(t)).flatMap(t => t).combineByKey(createTimeCombiner, timeCombiner, timeMerger).map(averagingFunction).map(t => t._1 + "," + t._2)
  t.saveAsTextFile(path)
}
sc.stop()

Etwas mehr Follow-up: spark-1.4.1 saveAsTextFile bis S3 ist auf emr-4.0.0 sehr langsam

Antworten auf die Frage(6)

Ihre Antwort auf die Frage