Результаты поиска по запросу "apache-spark"

1 ответ

 во втором окне см. обновление

ужно выполнить описанную ниже операцию с кадрами данных, используя оконную функцию Lag and Lead. Для каждого ключа мне нужно выполнить приведенную ниже вставку и обновить в окончательном выводе Введите условие: 1. По умолчанию LAYER_NO = 0 ...

1 ответ

 вариант и все заработало. Это только временное решение, поскольку оно не дает мне изоляцию сети. Сейчас я изучаю докер, чтобы найти правильное решение.

аюсь разместить локально отдельный кластер искры. У меня есть две гетерогенные машины, подключенные к локальной сети. Каждый элемент архитектуры, перечисленный ниже, работает в Docker. У меня есть следующая конфигурация мастер на машине 1 ...

1 ответ

и извлечь:

чномstructured_kafka_wordcount.py [https://gist.github.com/hrchu/2b2590f2f737ef430ac32b7f8edc15c0]код, Когда я делю строки на словаudf как ниже, my_split = udf(lambda x: x.split(' '), ArrayType(StringType())) words = lines.select( explode( ...

ТОП публикаций

1 ответ

 не останется безнаказанным

но я увидел странное поведение Спарка. В моем приложении есть конвейер, в котором я манипулирую одним большим набором данных - псевдокодом: val data = spark.read (...) data.join(df1, "key") //etc, more transformations data.cache(); // used to ...

1 ответ

Вы можете использовать следующее, чтобы сгладить структуру. Explode не работает для struct, так как сообщения об ошибках.

я есть датафрейм, схема которого выглядит следующим образом: event: struct (nullable = true) | | event_category: string (nullable = true) | | event_name: string (nullable = true) | | properties: struct (nullable = true) | | | ErrorCode: string ...

0 ответов

большое спасибо, ваш ответ ясен и логичен. "startTime" является значением смещения

р выглядит следующим образом: df=spark.createDataFrame([ (1,"2017-05-15 23:12:26",2.5), (1,"2017-05-09 15:26:58",3.5), (1,"2017-05-18 15:26:58",3.6), (2,"2017-05-15 15:24:25",4.8), (3,"2017-05-25 ...

5 ответов

Теперь вы можете делать с этим val все, что хотите, как с Direct Streaming. Создать временное представление, выполнить SQL-запросы, что угодно ..

читал, что Spark Structured Streaming не поддерживает вывод схемы для чтения сообщений Kafka как JSON. Есть ли способ получить схему так же, как это делает Spark Streaming: val dataFrame = spark.read.json(rdd.map(_.value())) dataFrame.printschema

1 ответ

Это предполагает, что продукты являются массивом структур. Если products является массивом массива, вы можете использовать следующее:

ющий код используется для извлечения рангов из столбцаproducts, Ранги являются вторыми числами в каждой паре[...], Например, в приведенном примере[[222,66],[333,55]] ряды66 а также55 для продуктов с ПК222 а также333соответственно. Но код в Spark ...

1 ответ

stackoverflow.com/questions/48744338/...

я есть два набора данных, первый из которых является большим эталонным набором данных, а из второго набора данных будет найдено лучшее соответствие из первого набора данных с помощью алгоритма MinHash. val dataset1 = ...

4 ответа

 доступно из

ратил немало времени, читая некоторые вопросы сpyspark [/questions/tagged/pyspark]а такжеискровым dataframe [/questions/tagged/spark-dataframe]теги и очень часто я обнаруживаю, что постеры не предоставляют достаточно информации, чтобы ...