Спасибо @pratiklodha за суть этого.

аюсь запустить линейную регрессию в PySpark и хочу создать таблицу, содержащую сводную статистику, такую ​​как коэффициенты, P-значения и t-значения для каждого столбца в моем наборе данных. Однако, чтобы обучить модели линейной регрессии, мне пришлось создать вектор признаков, используя СпаркVectorAssemblerи теперь для каждой строки у меня есть один вектор объектов и целевой столбец. Когда я пытаюсь получить доступ к встроенной статистике регрессии Spark, они дают мне очень сырой список чисел для каждой из этих статистических данных, и нет никакого способа узнать, какой атрибут соответствует какому значению, что действительно трудно определить вручную с помощью большое количество столбцов. Как мне сопоставить эти значения с именами столбцов?

Например, мой текущий вывод выглядит примерно так:

Коэффициенты: [-187.807832407, -187.058926726,85.1716641376,10595.3352802, -127.258892837, -39.2827730493, -1206.47228704,33.7078197705,99.9956812528]

P-значение: [0,0, 0,0, 0,0, 0,0, 0,0, 0,0, 0,0, 0,18589731365614548, 0,275173571416679, 0,0]

t-статистика: [-23,348593508995318, -44,72813283953004, 19,836508234714472, 144,49248881747755, -16,547272230754242, -9,560681351483941, -19,563547400189073, 1,321585053223243223223243213223223236132232232361, 12-статистическая

Стандартные ошибки коэффициента: [8.043646497811427, 4.182131353367049, 4.293682291754585, 73.32793120907755, 7.690626652102948, 4.108783841348964, 61.669402913526625, 25.4814451017378689, 91, 576, 561, 91, 576, 561, 91, 576, 561.

Эти цифры ничего не значат, если я не знаю, какому атрибуту они соответствуют. Но по моемуDataFrame У меня есть только один столбец под названием «объекты», который содержит ряды разреженных векторов.

Это еще более серьезная проблема, когда у меня есть функции с горячим кодированием, потому что если у меня есть одна переменная с кодировкой длины n, я получу n соответствующих коэффициентов / p-значений / t-значений и т. Д.

Ответы на вопрос(3)

Ваш ответ на вопрос