Результаты поиска по запросу "apache-spark"

2 ответа

Просто для записи - Zeppelin может использоваться с предоставленной пользователем установкой Spark, независимо от встроенной, и поддерживает Spark 2.2 (как указано в вопросе). Таким образом, вы можете использовать формат «скорость», если хотите.

всех сил, чтобы получитьconsole раковина работает сPySpark Структурированная потоковая передача [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] когда бегут от Zeppelin. По сути, я не вижу никаких результатов, ...

1 ответ

Ангус, я все еще вижу df4.rdd.isCheckpointed () как ложное. Но исходная проблема, возникшая у меня - ошибка переполнения стека, когда я итеративно добавлял столбцы во фрейм данных и контрольную точку, не помогла, была решена вашим решением. Итак, я отмечаю ваш ответ как правильный ответ. Благодарю.

лкивался с ошибками stackoverflower, когда я итеративно добавлял более 500 столбцов в мой фрейм данных pyspark. Итак, я включил контрольные точки. Контрольно-пропускные пункты не помогли. Итак, я создал следующее игрушечное приложение, чтобы ...

1 ответ

 как механизм с векторизованными udfs, который должен быть выпущен в Spark 2.3. Он ориентирован на высокопроизводительную реализацию serde в сочетании с Pandas API.

ный момент работаю над PySpark. На карте нет функцииDataFrameи нужно идтиRDD заmap функция. В Scala естьmap наDataFrameЕсть ли причина для этого?

ТОП публикаций

4 ответа

Вы создаете свою схему .// Пример: val innerSchema = StructType (Array (StructField ("value", StringType), StructField ("count", LongType)))

учаю твиты из темы кафки с Avro (сериализатор и десериализатор). Затем я создаю искровой потребитель, который извлекает твиты в Dstream of RDD [GenericRecord]. Теперь я хочу преобразовать каждый rdd в фрейм данных для анализа этих твитов ...

1 ответ

 ошибка, вот почему я спросил.

ой DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...

1 ответ

И для вашего удобства весь исходный код:

но у меня появилось требование, в котором мне нужно было генерировать файлы Parquet, которые могли бы быть прочитаны Apache Spark с использованием только Java (без дополнительных установок программного обеспечения, таких как: Apache Drill, Hive, ...

1 ответ

 экземпляр привязан к входу

Spark 1.6.x. Я ищу обходной путь. У меня есть функция, которая создаетDataFrame изDataFrameRDD: def rddAndBack(sc: SparkContext, df: DataFrame) : DataFrame = { val sqlContext = new org.apache.spark.sql.SQLContext(sc) ...

2 ответа

, Вы не можете использовать фрейм данных в трансформации, фреймы данных существуют только в драйвере.

я предоставляю свой код. Я перебираю DataFrameprodRows и для каждогоproduct_PK Я нахожу соответствующий подсписок product_PKs изprodRows. numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = Map() prodRows.foreach{ row : Row => ...

1 ответ

) полностью пропустив все промежуточные этапы.

я есть EMR-кластер на одной машине c3.8xlarge. После прочтения нескольких ресурсов я понял, что мне нужно разрешить приличный объем памяти вне кучи, потому что я использую pyspark, поэтому я настроил кластер следующим образом: Один ...

1 ответ

Нет, когда логика тоже имеет некоторые недостатки. Я имею в виду способ, которым вы написали это, поскольку все генерирует ноль в столбце статуса. Вы можете попробовать и увидеть это сами. отлаживать и улучшать. Я думаю, вы можете сделать это. :)

ичок в искре / скале. Я пытаюсь прочитать некоторые данные из таблицы кустов в искровой фрейм данных, а затем добавить столбец на основе некоторого условия. Вот мой код: val DF = hiveContext.sql("select * from (select * from test_table ...