Установите последнюю версию devel с GitHub и найдите

Question

Mar 30, 2017, 04:39 PM

Установите последнюю версию devel с GitHub и найдите

я проблема с разделением результатов моего случайного леса, созданного Sparklyr.

Я использую следующий код для генерации модели, которая предсказывает {0 | 1} значение и прогнозировать результат для указанного набора проверки.

model <- ml_random_forest( tbl(sc,"train_set") , formulea)

prediction <- sdf_predict( model, tbl(sc,"validation_set") ) %>% select(account_no, probability , prediction)

Этот сгенерированный объект предсказания выглядит так:

Source:   query [3.744e+06 x 3]
Database: spark connection master=yarn-client app=Dev - model v.11 local=FALSE

   account_no probability prediction
        <dbl>      <list>      <dbl>
1     5053177   <dbl [2]>          1
2     6508441   <dbl [2]>          1
3     7805527   <dbl [2]>          1
4    10001696   <dbl [2]>          1
5    10004230   <dbl [2]>          1
6    10005647   <dbl [2]>          1
7    10006029   <dbl [2]>          1
8    10018558   <dbl [2]>          0
9    10019161   <dbl [2]>          1
10   10031652   <dbl [2]>          1
# ... with 3.744e+06 more rows

Как я могу разделить список в Spark, чтобы получить только первый номер списка. Что-то вроде этого ...

   account_no probability 
        <dbl>      <dbl>
1     5053177   <0.9726>          
2     6508441   <0.1234>

Надеюсь, что кто-то может помочь решить эту проблему.

Привет, Jitske

Установите последнюю версию devel с GitHub и найдите

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Установите последнюю версию devel с GitHub и найдите

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы