Результаты поиска по запросу "apache-spark-sql"

2 ответа

перешел в чат

я есть потоковые данные JSON, структура которых может быть описана с помощью класса case ниже case class Hello(A: String, B: Array[Map[String, String]])Пример данных для того же, что и ниже | A | B | ...

1 ответ

Если данные не содержат такой столбец, вы можете использовать

аюсь записать большой разделенный набор данных на диск с помощью Spark иpartitionBy Алгоритм борется с обоими подходами, которые я пробовал. Перегородки сильно перекошены - некоторые перегородки массивные, а другие крошечные. Проблема № ...

2 ответа

Вы можете вызвать UDF:

аюсь внедрить накопительный продукт в Spark Scala, но я действительно не знаю, как это сделать. У меня есть следующий фрейм данных: Input data: +--+--+--------+----+ |A |B | date | val| +--+--+--------+----+ |rr|gg|20171103| 2 | |hh|jj|20171103| ...

ТОП публикаций

2 ответа

Как сделать хорошие воспроизводимые примеры Apache Spark Dataframe

я есть искровой датафрейм со строками как - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i]Теперь я хочу сохранить только первые 2 элемента из столбца массива. 1 | [a, b] 2 | [d, e] 3 | [g, h]Как это может быть достигнуто? Примечание. Помните, что ...

0 ответов

я использовал код выше

дал 3 кадра данных, выполнив следующий код. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD|sample1.csv id|code|name|Lname|mname 1|A|B|C|D|sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD|Я сравнил заголовки фреймов данных, используя ...

1 ответ

Может быть, вы хотите использовать один UDF для каждого столбца? В этом случае я редактировал пост

ный фрейм данных 0,2 0,3 +------+------------- -+ | name| country | +------+---------------+ |Raju |UAS | |Ram |Pak. | |null |China | |null |null | +------+--------------+ I Need this +------+--------------+ |Nwet|wet Con | ...

3 ответа

Хорошо. Но у меня есть 22Bill строки в таблице с различными значениями в этом столбце раздела, и я не могу дать предикаты для стольких значений.

аюсь переместить данные из таблицы в таблице PostgreSQL в таблицу Hive в HDFS. Для этого я придумал следующий код: val conf = ...

1 ответ

Хорошо, понял, я не могу понять, как использовать кэшированный / постоянный фрейм данных для дальнейшего использования.

я есть датафрейм id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 14 2 null ...

1 ответ

Выход:

от вопрос уже есть ответ здесь: Как отобразить вложенный Dataframe в Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 ответУ меня есть датафрейм в искре, который похож на: column_A | column_B --------- -------- 1 1,12,21 ...

1 ответ

 только об этой конкретной проблеме.

гда думал, что API набора данных / dataframe одинаковы ... и единственное отличие состоит в том, что API набора данных обеспечит вам безопасность времени компиляции. Правильно ? Итак .. У меня очень простой случай: case class Player (playerID: ...