Установите последнюю версию devel с GitHub и найдите
я проблема с разделением результатов моего случайного леса, созданного Sparklyr.
Я использую следующий код для генерации модели, которая предсказывает {0 | 1} значение и прогнозировать результат для указанного набора проверки.
model <- ml_random_forest( tbl(sc,"train_set") , formulea)
prediction <- sdf_predict( model, tbl(sc,"validation_set") ) %>% select(account_no, probability , prediction)
Этот сгенерированный объект предсказания выглядит так:
Source: query [3.744e+06 x 3]
Database: spark connection master=yarn-client app=Dev - model v.11 local=FALSE
account_no probability prediction
<dbl> <list> <dbl>
1 5053177 <dbl [2]> 1
2 6508441 <dbl [2]> 1
3 7805527 <dbl [2]> 1
4 10001696 <dbl [2]> 1
5 10004230 <dbl [2]> 1
6 10005647 <dbl [2]> 1
7 10006029 <dbl [2]> 1
8 10018558 <dbl [2]> 0
9 10019161 <dbl [2]> 1
10 10031652 <dbl [2]> 1
# ... with 3.744e+06 more rows
Как я могу разделить список в Spark, чтобы получить только первый номер списка. Что-то вроде этого ...
account_no probability
<dbl> <dbl>
1 5053177 <0.9726>
2 6508441 <0.1234>
Надеюсь, что кто-то может помочь решить эту проблему.
Привет, Jitske