Результаты поиска по запросу "apache-spark"

2 ответа

stackoverflow.com/questions/54653298/...

го читал о том, как делать эффективные объединения в pyspark. Найденные мной способы эффективного объединения: Используйте трансляцию, если можете. (Я обычно не могупотому что датафреймы слишком большие)Рассмотрите возможность использования ...

1 ответ

извините, проблема с клавиатурой. это исправило это. я могу сейчас вставить, но он не вставляется в формате JSON?

ел бы вставить объект json в scala с использованием ячейки Hbase, в настоящее время я могу вставлять значения с помощью приведенного ниже кода, но хотел бы знать, как я могу вставить весь объект Json в ячейку Hbase. import ...

1 ответ

SPARK-27052 - Использование PySpark udf в преобразовании дает значения NULL

transform функция высшего порядка ( https://issues.apache.org/jira/browse/SPARK-23908 [https://issues.apache.org/jira/browse/SPARK-23908]). Есть ли способ использовать его как стандартную функцию (в пакетеorg.apache.spark.sql.functions._)? У ...

ТОП публикаций

1 ответ

Попробуй это. Вы применяете пересечение по оригинальным s1 и S2, а не по разделенным.

я есть два строковых столбца, разделенных запятыми (sourceAuthors а такжеtargetAuthors). val df = Seq( ("Author1,Author2,Author3","Author2,Author3,Author1") ).toDF("source","target")Я хотел бы добавить еще один столбецnCommonAuthors ...

1 ответ

 во время импорта. Я на Spark 1.6.0 / Python 2.7

я есть данные в следующем формате, которые получены из Hive в dataframe: date, stock, price 1388534400, GOOG, 50 1388534400, FB, 60 1388534400, MSFT, 55 1388620800, GOOG, 52 1388620800, FB, 61 1388620800, MSFT, 55Где дата - эпоха, полночь в этот ...

2 ответа

но я использую иск 2.3.0 .. можете ли вы предоставить, как использовать foreach в 2.3.0

запрос на интеграцию искровой структурированной потоковой передачи с таблицей HIVE. Я попытался сделать несколько примеров потоковой структурированной искры. вот мой пример val spark =SparkSession.builder().appName("StatsAnalyzer") ...

2 ответа

Сортировка требует, чтобы все данные для данного "n" или набора "n" находились в одном разделе.

парк определяет количество разделов после использованияorderBy? Я всегда думал, что результирующийspark.sql.shuffle.partitions, но это не похоже на правду val df = (1 to 10000).map(i => ...

1 ответ

Нет, ошибки нет, просто не так, как она работает.

делил данные в HDFS. В какой-то момент я решил обновить его. Алгоритм: Читайте новые данные из темы кафки.Узнайте новые имена разделов данных.Загрузите данные из разделов с этими именами, которые есть в HDFS.Объединить данные HDFS с новыми ...

0 ответов

({Exec Stream Pumper} RemoteInterpreterManagedProcess.java [processLine]: 298) - Когда это было неожиданно в это время. ({Exec Default Executor} RemoteInterpreterManagedProcess.java [onProcessFailed]: 250) - Сбой процесса интерпретатора {} org.apache.commons.exec.ExecuteException: процесс завершился с ошибкой: 255 (значение выхода: 255) в org.apache.commons .exec.DefaultExecutor.executeInternal (DefaultExecutor.java:404) ({pool-2-thread-2} Job.java [run]: 190) - Задание не выполнено

аюсь настроить zeppelin-0.8.0 на моей операционной системе windos 8 r2. У меня уже есть спарк на моей консоли, т.е. SPARK_HOME и JAVA_HOME, HADOOP_HOME настроены и работают нормально. Но в то время как я пытаюсь выполнить printl ("привет") в ...

1 ответ

Я не знал этого, я думал, что только код будет более прямым, эффективным и читабельным. Я добавлю немного контекста;)

аюсь создать вложенный JSON снизу данных. Только имена полей, такие какsegid а такжеval постоянны, остальное не является постоянным. Мне нужно поместить их в список категорий. Не могли бы вы помочь. [/imgs/NRMzc.png] Ожидаемый результат: [{ ...