Drucken der ClusterID und ihrer Elemente mit Spark KMeans algo.

Question

Nov 14, 2014, 10:39 PM

Drucken der ClusterID und ihrer Elemente mit Spark KMeans algo.

Ich habe dieses Programm, das den MSSE of Kmeans-Algorithmus auf Apache-Spark ausgibt. Es werden 20 Cluster generiert. Ich versuche, die ClusterID und die Elemente zu drucken, die der jeweiligen ClusterID zugewiesen wurden. Wie durchlaufe ich die Cluster-ID, um die Elemente zu drucken.

Danke Jungs!

           val sc = new SparkContext("local", "KMeansExample","/usr/local/spark/", List("target/scala-2.10/kmeans_2.10-1.0.jar"))
            // Load and parse the data
            val data = sc.textFile("kmeans.csv")
         val parsedData = data.map( s => Vectors.dense(s.split(',').map(_.toDouble)))

        // Cluster the data into two classes using KMeans
        val numIterations = 20
        val numClusters = 20
        val clusters = KMeans.train(parsedData, numClusters, numIterations)
        val clusterCenters = clusters.clusterCenters map (_.toArray)
        println("The Cluster Centers are = " + clusterCenters)
        // Evaluate clustering by computing Within Set Sum of Squared Errors
        val WSSSE = clusters.computeCost(parsedData)
        println("Within Set Sum of Squared Errors = " + WSSSE)