Результаты поиска по запросу "apache-spark"
Просто для записи - Zeppelin может использоваться с предоставленной пользователем установкой Spark, независимо от встроенной, и поддерживает Spark 2.2 (как указано в вопросе). Таким образом, вы можете использовать формат «скорость», если хотите.
всех сил, чтобы получитьconsole раковина работает сPySpark Структурированная потоковая передача [https://spark.apache.org/docs/2.2.0/structured-streaming-programming-guide.html] когда бегут от Zeppelin. По сути, я не вижу никаких результатов, ...
Ангус, я все еще вижу df4.rdd.isCheckpointed () как ложное. Но исходная проблема, возникшая у меня - ошибка переполнения стека, когда я итеративно добавлял столбцы во фрейм данных и контрольную точку, не помогла, была решена вашим решением. Итак, я отмечаю ваш ответ как правильный ответ. Благодарю.
лкивался с ошибками stackoverflower, когда я итеративно добавлял более 500 столбцов в мой фрейм данных pyspark. Итак, я включил контрольные точки. Контрольно-пропускные пункты не помогли. Итак, я создал следующее игрушечное приложение, чтобы ...
как механизм с векторизованными udfs, который должен быть выпущен в Spark 2.3. Он ориентирован на высокопроизводительную реализацию serde в сочетании с Pandas API.
ный момент работаю над PySpark. На карте нет функцииDataFrameи нужно идтиRDD заmap функция. В Scala естьmap наDataFrameЕсть ли причина для этого?
Вы создаете свою схему .// Пример: val innerSchema = StructType (Array (StructField ("value", StringType), StructField ("count", LongType)))
учаю твиты из темы кафки с Avro (сериализатор и десериализатор). Затем я создаю искровой потребитель, который извлекает твиты в Dstream of RDD [GenericRecord]. Теперь я хочу преобразовать каждый rdd в фрейм данных для анализа этих твитов ...
ошибка, вот почему я спросил.
ой DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...
И для вашего удобства весь исходный код:
но у меня появилось требование, в котором мне нужно было генерировать файлы Parquet, которые могли бы быть прочитаны Apache Spark с использованием только Java (без дополнительных установок программного обеспечения, таких как: Apache Drill, Hive, ...
экземпляр привязан к входу
Spark 1.6.x. Я ищу обходной путь. У меня есть функция, которая создаетDataFrame изDataFrameRDD: def rddAndBack(sc: SparkContext, df: DataFrame) : DataFrame = { val sqlContext = new org.apache.spark.sql.SQLContext(sc) ...
, Вы не можете использовать фрейм данных в трансформации, фреймы данных существуют только в драйвере.
я предоставляю свой код. Я перебираю DataFrameprodRows и для каждогоproduct_PK Я нахожу соответствующий подсписок product_PKs изprodRows. numRecProducts = 10 var listOfProducts: Map[Long,Array[(Long, Int)]] = Map() prodRows.foreach{ row : Row => ...
) полностью пропустив все промежуточные этапы.
я есть EMR-кластер на одной машине c3.8xlarge. После прочтения нескольких ресурсов я понял, что мне нужно разрешить приличный объем памяти вне кучи, потому что я использую pyspark, поэтому я настроил кластер следующим образом: Один ...
Нет, когда логика тоже имеет некоторые недостатки. Я имею в виду способ, которым вы написали это, поскольку все генерирует ноль в столбце статуса. Вы можете попробовать и увидеть это сами. отлаживать и улучшать. Я думаю, вы можете сделать это. :)
ичок в искре / скале. Я пытаюсь прочитать некоторые данные из таблицы кустов в искровой фрейм данных, а затем добавить столбец на основе некоторого условия. Вот мой код: val DF = hiveContext.sql("select * from (select * from test_table ...