Прогнозирование вероятностей классов в случае градиентных деревьев в Spark с использованием выходных данных дерева

Question

May 18, 2016, 05:20 PM

tree boosting prediction probability apache-spark-mllib

Прогнозирование вероятностей классов в случае градиентных деревьев в Spark с использованием выходных данных дерева

Известно, что GBT в Spark дает вам предсказанные ярлыки на данный момент.

Я думал о попытке вычислить прогнозируемые вероятности для класса (скажем, все случаи, попадающие под определенный лист)

Коды для построения GBT

import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel
import org.apache.spark.mllib.util.MLUtils

//Importing the data
val data = sc.textFile("data/mllib/credit_approval_2_attr.csv") //using the credit approval data set from UCI machine learning repository

//Parsing the data
val parsedData = data.map { line =>
    val parts = line.split(',').map(_.toDouble)
    LabeledPoint(parts(0), Vectors.dense(parts.tail))
}

//Splitting the data
val splits = parsedData.randomSplit(Array(0.7, 0.3), seed = 11L)
val training = splits(0).cache() 
val test = splits(1)

// Train a GradientBoostedTrees model.
// The defaultParams for Classification use LogLoss by default.
val boostingStrategy = BoostingStrategy.defaultParams("Classification")
boostingStrategy.numIterations = 2 // We can use more iterations in practice.
boostingStrategy.treeStrategy.numClasses = 2
boostingStrategy.treeStrategy.maxDepth = 2
boostingStrategy.treeStrategy.maxBins = 32
boostingStrategy.treeStrategy.subsamplingRate = 0.5
boostingStrategy.treeStrategy.maxMemoryInMB =1024
boostingStrategy.learningRate = 0.1

// Empty categoricalFeaturesInfo indicates all features are continuous.
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()

val model = GradientBoostedTrees.train(training, boostingStrategy)  

model.toDebugString

Это дает мне 2 дерева глубины 2, как показано ниже для простоты:

 Tree 0:
    If (feature 3 <= 2.0)
     If (feature 2 <= 1.25)
      Predict: -0.5752212389380531
     Else (feature 2 > 1.25)
      Predict: 0.07462686567164178
    Else (feature 3 > 2.0)
     If (feature 0 <= 30.17)
      Predict: 0.7272727272727273
     Else (feature 0 > 30.17)
      Predict: 1.0
  Tree 1:
    If (feature 5 <= 67.0)
     If (feature 4 <= 100.0)
      Predict: 0.5739387416147804
     Else (feature 4 > 100.0)
      Predict: -0.550117566730937
    Else (feature 5 > 67.0)
     If (feature 2 <= 0.0)
      Predict: 3.0383669122382835
     Else (feature 2 > 0.0)
      Predict: 0.4332824083446489

Мой вопрос: Могу ли я использовать вышеупомянутые деревья для расчета прогнозируемых вероятностей, таких как:

Относительно каждого экземпляра в наборе функций, используемых для прогнозирования

exp (оценка листа с дерева 0 + оценка листа с дерева 1) / (1 + exp (оценка листа с дерева 0 + оценка листа с дерева 1))

Это дает мне некоторую вероятность. Но не уверен, что это правильный способ сделать это. Также, если есть какой-либо документ, объясняющий, как рассчитывается оценка листа (прогноз). Буду очень признателен, если кто-нибудь сможет поделиться.

Любое предложение будет превосходным.

Комментировать

Прогнозирование вероятностей классов в случае градиентных деревьев в Spark с использованием выходных данных дерева

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы