Predicción de probabilidades de clases en el caso de árboles de aumento de gradiente en Spark utilizando la salida del árbol

Question

May 18, 2016, 05:20 PM

boosting prediction probability apache-spark-mllib tree

Predicción de probabilidades de clases en el caso de árboles de aumento de gradiente en Spark utilizando la salida del árbol

Se sabe que GBT s en Spark le da etiquetas pronosticadas a partir de ahora.

Estaba pensando en tratar de calcular las probabilidades predichas para una clase (por ejemplo, todas las instancias que caen bajo una hoja determinada)

Los códigos para construir GBT

import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel
import org.apache.spark.mllib.util.MLUtils

//Importing the data
val data = sc.textFile("data/mllib/credit_approval_2_attr.csv") //using the credit approval data set from UCI machine learning repository

//Parsing the data
val parsedData = data.map { line =>
    val parts = line.split(',').map(_.toDouble)
    LabeledPoint(parts(0), Vectors.dense(parts.tail))
}

//Splitting the data
val splits = parsedData.randomSplit(Array(0.7, 0.3), seed = 11L)
val training = splits(0).cache() 
val test = splits(1)

// Train a GradientBoostedTrees model.
// The defaultParams for Classification use LogLoss by default.
val boostingStrategy = BoostingStrategy.defaultParams("Classification")
boostingStrategy.numIterations = 2 // We can use more iterations in practice.
boostingStrategy.treeStrategy.numClasses = 2
boostingStrategy.treeStrategy.maxDepth = 2
boostingStrategy.treeStrategy.maxBins = 32
boostingStrategy.treeStrategy.subsamplingRate = 0.5
boostingStrategy.treeStrategy.maxMemoryInMB =1024
boostingStrategy.learningRate = 0.1

// Empty categoricalFeaturesInfo indicates all features are continuous.
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()

val model = GradientBoostedTrees.train(training, boostingStrategy)  

model.toDebugString

Esto me da 2 árboles de profundidad 2 como a continuación por simplicidad:

 Tree 0:
    If (feature 3 <= 2.0)
     If (feature 2 <= 1.25)
      Predict: -0.5752212389380531
     Else (feature 2 > 1.25)
      Predict: 0.07462686567164178
    Else (feature 3 > 2.0)
     If (feature 0 <= 30.17)
      Predict: 0.7272727272727273
     Else (feature 0 > 30.17)
      Predict: 1.0
  Tree 1:
    If (feature 5 <= 67.0)
     If (feature 4 <= 100.0)
      Predict: 0.5739387416147804
     Else (feature 4 > 100.0)
      Predict: -0.550117566730937
    Else (feature 5 > 67.0)
     If (feature 2 <= 0.0)
      Predict: 3.0383669122382835
     Else (feature 2 > 0.0)
      Predict: 0.4332824083446489

Mi pregunta es: ¿Puedo usar los árboles anteriores para calcular probabilidades pronosticadas como:

Con respecto a cada instancia en el conjunto de características utilizadas para la predicción

exp (puntaje de hoja del árbol 0 + puntaje de hoja del árbol 1) / (1 + exp (puntaje de hoja del árbol 0 + puntaje de hoja del árbol 1))

Esto me da una especie de probabilidad. Pero no estoy seguro si es la forma correcta de hacerlo. Además, si hay algún documento que explique cómo se calcula la puntuación de la hoja (predicción). Estaría realmente agradecido si alguien puede compartir.

Cualquier sugerencia sería excelente.