аюсь использовать искровое разделение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location")Проблема здесь в каждом разделе создает огромное количество паркетных файлов, что приводит к медленному чтению, если я ...

apache-spark pyspark

2 ответа

Используйте словарь для заполнения значений определенных столбцов:

я есть следующий образец DataFrame: a | b | c | 1 | 2 | 4 | 0 | null | null| null | 3 | 4 |И я хочу заменить нулевые значения только в первых 2 столбцах - столбцы «а» и «б»: a | b | c | 1 | 2 | 4 | 0 | 0 | null| 0 | 3 | 4 |Вот код для создания ...

apache-spark-sql apache-spark scala

2 ответа

Привет @elarib. Это работало, но не удаляло те столбцы, которые были нулевыми. Он заменяет NULL пробелами. Мне не нужны эти столбцы вообще

далить из таблицы столбцы, содержащие только нулевые значения? Предположим, у меня есть стол - SnapshotDate CreationDate Country Region CloseDate Probability BookingAmount RevenueAmount SnapshotDate1 CreationDate1 CloseDate1 null null null null ...

pyspark

2 ответа

функция в сочетании с

я есть датафрейм Pyspark (Исходный кадр данных) с данными ниже (все столбцы имеютстрокатип данных): id Value 1 103 2 1504 3 1Мне нужно создать новыймодифицированный фрейм данныхс участиемнабивкавстоимость столбец, так что длина этого столбца ...

apache-spark pyspark

2 ответа

Наконец, вы можете удалить и переименовать:

я есть входной фрейм данных (ip_df), данные в этом кадре выглядят так, как показано ниже: id timestamp_value 1 2017-08-01T14:30:00+05:30 2 2017-08-01T14:30:00+06:30 3 2017-08-01T14:30:00+07:30Мне нужно создать новый фрейм данных (op_df), где мне ...

pyspark pyspark-sql apache-spark-sql apache-spark

0 ответов

Затем вы можете отсортировать столбец «Группа» в любом порядке. Приведенное выше решение почти имеет его, но важно помнить, что row_number начинается с 1, а не с 0.

ьзуя pyspark, я хотел бы иметь возможность сгруппировать фрейм данных spark, отсортировать группу, а затем указать номер строки. Так Group Date A 2000 A 2002 A 2007 B 1999 B 2015Станет Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B 2015 1

scala java

0 ответов

Предположим, у вас есть датафрейм. df1 и если вы хотите соединить один и тот же кадр данных, вы можете использовать ниже

val rdd = sc.parallelize(Seq(("vskp", Array(2.0, 1.0, 2.1, 5.4)),("hyd",Array(1.5, 0.5, 0.9, 3.7)),("hyd", Array(1.5, 0.5, 0.9, 3.2)),("tvm", Array(8.0, 2.9, 9.1, 2.5)))) val df1= rdd.toDF("id", "vals") val rdd1 = ...

Страница 9 из 12

7 8910 11

Результаты поиска по запросу "spark-dataframe"

Чтобы создать представление, разработчику нужна утилита под названием

хотя - я перебрал массив заголовков CSV.

https://github.com/ZuInnoTe/spark-hadoopoffice-ds

Популярные теги

ТОП публикаций

спасибо за любую помощь в решении этой проблемы

Используйте словарь для заполнения значений определенных столбцов:

Привет @elarib. Это работало, но не удаляло те столбцы, которые были нулевыми. Он заменяет NULL пробелами. Мне не нужны эти столбцы вообще

функция в сочетании с

Наконец, вы можете удалить и переименовать:

Затем вы можете отсортировать столбец «Группа» в любом порядке. Приведенное выше решение почти имеет его, но важно помнить, что row_number начинается с 1, а не с 0.

Предположим, у вас есть датафрейм. df1 и если вы хотите соединить один и тот же кадр данных, вы можете использовать ниже

Вы очень активны! Это здорово!

Результаты поиска по запросу "spark-dataframe"

Популярные теги

ТОП публикаций