Результаты поиска по запросу "apache-spark-sql"

2 ответа

Этот подход позволяет избежать ненужной реструктуризации RDD / фреймов данных.

рейма данных, содержащего сочетание строковых и числовых типов данных, целью является создание новогоfeatures столбец, который являетсяminhash из всех них. Хотя это можно сделать, выполнивdataframe.toRDD это дорого делать, когда следующим шагом ...

1 ответ

 не может быть преобразован в

ли конвертировать потоковоеo.a.s.sql.Dataset вDStream? Если так, то как? Я знаю, как преобразовать его в RDD, но это в контексте потоковой передачи.

3 ответа

да, но я делаю `select (" member_id ") в обоих случаях.

у я получаю разные результаты для..agg(countDistinct("member_id") as "count") а также..distinct.count? Разница такая же, как междуselect count(distinct member_id) а такжеselect distinct count(member_id)?

ТОП публикаций

1 ответ

 значения автоматически. Я отредактировал ответ.

способ получить новый столбец во фрейме данных в Scala, который вычисляетmin/max значений вcol1, col2...,col10 для каждого ряда. Я знаю, что могу сделать это с помощью UDF, но, возможно, есть более простой способ. Спасибо!

1 ответ

Спасибо, это был Spark 2.2-балл-что-то. Похоже, это уже было «исправлено» в смысле выдачи сообщения об ошибке в ветке 2.3.

я есть работа Spark, написанная на Python, которая ведет себя странно при проверке ошибок в своих данных. Упрощенная версия ниже: from pyspark.sql import SparkSession from pyspark.sql.types import StringType, StructType, StructField, DoubleType ...

1 ответ

 только об этой конкретной проблеме.

гда думал, что API набора данных / dataframe одинаковы ... и единственное отличие состоит в том, что API набора данных обеспечит вам безопасность времени компиляции. Правильно ? Итак .. У меня очень простой случай: case class Player (playerID: ...

1 ответ

Выход:

от вопрос уже есть ответ здесь: Как отобразить вложенный Dataframe в Spark [/questions/36784735/how-to-flatmap-a-nested-dataframe-in-spark] 1 ответУ меня есть датафрейм в искре, который похож на: column_A | column_B --------- -------- 1 1,12,21 ...

1 ответ

Хорошо, понял, я не могу понять, как использовать кэшированный / постоянный фрейм данных для дальнейшего использования.

я есть датафрейм id lat long lag_lat lag_long detector lag_interval gpsdt lead_gpsdt 1 12 13 12 13 1 [1.5,3.5] 4 4.5 1 12 13 12 13 1 null 4.5 5 1 12 13 12 13 1 null 5 5.5 1 12 13 12 13 1 null 5.5 6 1 13 14 12 13 2 null 6 6.5 1 13 14 13 14 2 null ...

3 ответа

Хорошо. Но у меня есть 22Bill строки в таблице с различными значениями в этом столбце раздела, и я не могу дать предикаты для стольких значений.

аюсь переместить данные из таблицы в таблице PostgreSQL в таблицу Hive в HDFS. Для этого я придумал следующий код: val conf = ...

2 ответа

Как сделать хорошие воспроизводимые примеры Apache Spark Dataframe

я есть искровой датафрейм со строками как - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i]Теперь я хочу сохранить только первые 2 элемента из столбца массива. 1 | [a, b] 2 | [d, e] 3 | [g, h]Как это может быть достигнуто? Примечание. Помните, что ...