Результаты поиска по запросу "apache-spark-sql"

1 ответ

 ошибка, вот почему я спросил.

ой DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...

1 ответ

Нет, когда логика тоже имеет некоторые недостатки. Я имею в виду способ, которым вы написали это, поскольку все генерирует ноль в столбце статуса. Вы можете попробовать и увидеть это сами. отлаживать и улучшать. Я думаю, вы можете сделать это. :)

ичок в искре / скале. Я пытаюсь прочитать некоторые данные из таблицы кустов в искровой фрейм данных, а затем добавить столбец на основе некоторого условия. Вот мой код: val DF = hiveContext.sql("select * from (select * from test_table ...

1 ответ

 на основном DF и выбранном DF @EmmaNej

я есть искраDataFrame который имеет один столбец, который имеетмного нулейи очень мало (только 0,01% из них). Я хотел бы взять случайную подвыборку, но стратифицированную - чтобы в этом столбце сохранялось отношение 1 к 0. Можно ли это сделать ...

ТОП публикаций

1 ответ

Следующий пример показывает разницу и, надеюсь, даст вам некоторое представление о том, почему он мощный.

я есть следующие фрагменты кода, и мне интересно, в чем разница между этими двумя и какой из них мне следует использовать? Я использую спарк 2.2. Dataset<Row> df = sparkSession.readStream() .format("kafka") ...

2 ответа

Вы пытались использовать ROWNUM вместо order_id в вашем коде?

ользую запрос для получения данных из MYSQL следующим образом: var df = spark.read.format("jdbc") .option("url", "jdbc:mysql://10.0.0.192:3306/retail_db") .option("driver" ,"com.mysql.jdbc.Driver") .option("user", "retail_dba") ...

1 ответ

 ты можешь:

ичок в SparkSQL / Scala и борюсь с парой, казалось бы, простых задач. Я пытаюсь создать динамический SQL из Scala String Array. Я пытаюсь повторно напечатать некоторые столбцы в моем DataFrame, но я не буду точно знать, что мне нужно ...

1 ответ

Попробуй это:

я есть примерный фрейм данных в Spark Scala, который содержит один столбец и много других столбцов 50+ и мне нужно разобрать идентификатор: пример данных: id name address 234 435 567 auh aus 345 123 muji ukвыходные данные: id name address 234 ...

3 ответа

С UDF с помощью взрыва

с Я хочу добавить возвращаемые значения UDF к существующему фрейму данных в отдельных столбцах. Как мне достичь этого изобретательно? Вот пример того, что я имею до сих пор. from pyspark.sql.functions import udf from pyspark.sql.types import ...

1 ответ

Большое спасибо за ваш ответ. Я думаю, я посмотрю, сработает ли сбор данных в R для моей программы. Если нет, я посмотрю в расширениях Scala.

я есть широкий фрейм данных из нескольких тысяч столбцов примерно на миллион строк, для которого я хотел бы рассчитать итоговые суммы строк. Мое решение пока ниже. Я использовал:dplyr - сумма нескольких столбцов с использованием регулярных ...

3 ответа

Спасибо

идея, почему я получаю результат ниже? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...