Previsão de probabilidades de classes no caso de Gradient Boosting Trees no Spark usando a saída em árvore

Question

May 18, 2016, 05:20 PM

apache-spark-mllib boosting tree prediction probability

Previsão de probabilidades de classes no caso de Gradient Boosting Trees no Spark usando a saída em árvore

Sabe-se que os GBTs no Spark fornecem rótulos previstos a partir de agora.

Eu estava pensando em tentar calcular probabilidades previstas para uma classe (digamos, todas as instâncias que se enquadram em uma determinada folha)

Os códigos para criar GBTs

import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel
import org.apache.spark.mllib.util.MLUtils

//Importing the data
val data = sc.textFile("data/mllib/credit_approval_2_attr.csv") //using the credit approval data set from UCI machine learning repository

//Parsing the data
val parsedData = data.map { line =>
    val parts = line.split(',').map(_.toDouble)
    LabeledPoint(parts(0), Vectors.dense(parts.tail))
}

//Splitting the data
val splits = parsedData.randomSplit(Array(0.7, 0.3), seed = 11L)
val training = splits(0).cache() 
val test = splits(1)

// Train a GradientBoostedTrees model.
// The defaultParams for Classification use LogLoss by default.
val boostingStrategy = BoostingStrategy.defaultParams("Classification")
boostingStrategy.numIterations = 2 // We can use more iterations in practice.
boostingStrategy.treeStrategy.numClasses = 2
boostingStrategy.treeStrategy.maxDepth = 2
boostingStrategy.treeStrategy.maxBins = 32
boostingStrategy.treeStrategy.subsamplingRate = 0.5
boostingStrategy.treeStrategy.maxMemoryInMB =1024
boostingStrategy.learningRate = 0.1

// Empty categoricalFeaturesInfo indicates all features are continuous.
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()

val model = GradientBoostedTrees.train(training, boostingStrategy)  

model.toDebugString

Isso me dá duas árvores de profundidade 2, como abaixo, para simplificar:

 Tree 0:
    If (feature 3 <= 2.0)
     If (feature 2 <= 1.25)
      Predict: -0.5752212389380531
     Else (feature 2 > 1.25)
      Predict: 0.07462686567164178
    Else (feature 3 > 2.0)
     If (feature 0 <= 30.17)
      Predict: 0.7272727272727273
     Else (feature 0 > 30.17)
      Predict: 1.0
  Tree 1:
    If (feature 5 <= 67.0)
     If (feature 4 <= 100.0)
      Predict: 0.5739387416147804
     Else (feature 4 > 100.0)
      Predict: -0.550117566730937
    Else (feature 5 > 67.0)
     If (feature 2 <= 0.0)
      Predict: 3.0383669122382835
     Else (feature 2 > 0.0)
      Predict: 0.4332824083446489

Minha pergunta é: Posso usar as árvores acima para calcular probabilidades previstas, como:

Com relação a todas as instâncias no conjunto de recursos usado para previsão

exp (escore da folha da árvore 0 + escore da folha da árvore 1) / (1 + exp (escore da folha da árvore 0 + escore da folha da árvore 1))

Isso me dá um tipo de probabilidade. Mas não tenho certeza se é o caminho certo para fazê-lo. Além disso, se houver algum documento explicando como a pontuação da folha (previsão) é calculada. Ficaria muito grato se alguém puder compartilhar.

Qualquer sugestão seria excelente.