Результаты поиска по запросу "apache-spark"

1 ответ

, как показано ниже:

вая приведенный ниже код, как мне добавить столбец подсчета? (например, .count ("*"). as ("count")) Окончательный вывод будет выглядеть примерно так: +---+------+------+-----------------------------+------ | id|sum(d)|max(b)|concat_ws(,, ...

2 ответа

с простым sql это невозможно

ел бы отсортировать DataFrame на основе столбца с моим собственным компаратором. Это можно сделать в Spark SQL? Например, предположим, что у меня есть DataFrame, зарегистрированный как таблица «MyTable» со столбцом «Day», тип которого ...

1 ответ

 функционирование в PYSPARK?

я есть код T-SQL, как показано ниже cast( dateadd(minute, - 240, tmp_view_tos_lenelgate_qry11.eventdate) as dateКак реализоватьDATE_ADD функционирование в PYSPARK?

ТОП публикаций

0 ответов

Мой код для файла данных newfile1.csv и json file (схема) работает отлично, я просто пропускаю последний бит кода, где я могу динамически распределять заголовки и типы данных из файла json в файл csv.

ваша помощь в определении динамической схемы с полями и типами данных из файла JSon входных метаданных для данных в файле csv в Databricks. Я хочу определить схему, которая отображает имя поля с соответствующим типом данных из JSON для ввода ...

2 ответа

передать значение столбца в качестве параметра функции

отаю с PySpark над огромным набором данных, где я хочу отфильтровать фрейм данных на основе строк в другом фрейме данных. Например, dd ...

1 ответ

Я не знал этого, я думал, что только код будет более прямым, эффективным и читабельным. Я добавлю немного контекста;)

аюсь создать вложенный JSON снизу данных. Только имена полей, такие какsegid а такжеval постоянны, остальное не является постоянным. Мне нужно поместить их в список категорий. Не могли бы вы помочь. [/imgs/NRMzc.png] Ожидаемый результат: [{ ...

0 ответов

({Exec Stream Pumper} RemoteInterpreterManagedProcess.java [processLine]: 298) - Когда это было неожиданно в это время. ({Exec Default Executor} RemoteInterpreterManagedProcess.java [onProcessFailed]: 250) - Сбой процесса интерпретатора {} org.apache.commons.exec.ExecuteException: процесс завершился с ошибкой: 255 (значение выхода: 255) в org.apache.commons .exec.DefaultExecutor.executeInternal (DefaultExecutor.java:404) ({pool-2-thread-2} Job.java [run]: 190) - Задание не выполнено

аюсь настроить zeppelin-0.8.0 на моей операционной системе windos 8 r2. У меня уже есть спарк на моей консоли, т.е. SPARK_HOME и JAVA_HOME, HADOOP_HOME настроены и работают нормально. Но в то время как я пытаюсь выполнить printl ("привет") в ...

1 ответ

Нет, ошибки нет, просто не так, как она работает.

делил данные в HDFS. В какой-то момент я решил обновить его. Алгоритм: Читайте новые данные из темы кафки.Узнайте новые имена разделов данных.Загрузите данные из разделов с этими именами, которые есть в HDFS.Объединить данные HDFS с новыми ...

2 ответа

но я использую иск 2.3.0 .. можете ли вы предоставить, как использовать foreach в 2.3.0

запрос на интеграцию искровой структурированной потоковой передачи с таблицей HIVE. Я попытался сделать несколько примеров потоковой структурированной искры. вот мой пример val spark =SparkSession.builder().appName("StatsAnalyzer") ...

1 ответ

 во время импорта. Я на Spark 1.6.0 / Python 2.7

я есть данные в следующем формате, которые получены из Hive в dataframe: date, stock, price 1388534400, GOOG, 50 1388534400, FB, 60 1388534400, MSFT, 55 1388620800, GOOG, 52 1388620800, FB, 61 1388620800, MSFT, 55Где дата - эпоха, полночь в этот ...