Результаты поиска по запросу "rdd"

СогласноSpark RDD документы [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: > Все преобразования в Spark являются ленивыми, поскольку они не сразу вычисляют свои результаты ... Такая конструкция позволяет Spark ...

spark-streaming scala apache-kafka apache-spark

1 ответ

Исключение при доступе к KafkaOffset из RDD

У меня есть потребитель Spark, который течет из Кафки. Я пытаюсь управлять смещениями для семантики, выполняемой ровно один раз.Однако при доступе к смещению...

ТОП публикаций

10 Food Delivery Startups to Watch for in 2020

7 Best Telemedicine Apps In 2020

How to Build a Live Streaming Video App and Reach Founder’s Zen

19 Tools And Resources to Build an MVP From Scratch

apache-spark

1 ответ

Сохраняет ли spark все элементы RDD [K, V] для определенного ключа в одном разделе после «groupByKey», даже если данные для ключа очень большие?

Считайте, что у меня есть PairedRDD, скажем, 10 разделов. Но ключи распределены неравномерно, то есть все 9 разделов с данными принадлежат одному ключу, скажем

python numpy pyspark

1 ответ

Spark: Как уменьшить «ByByKey», когда ключи являются массивами, которые не могут быть хэшируемыми?

У меня есть RDD (ключ, значение) элементов. Ключи - это массивы NumPy. Массивы NumPy не являются хэшируемыми, и это вызывает проблему, когда я пытаюсь

pyspark-sql spark-dataframe apache-spark pyspark

1 ответ

Apache искра, имеющая дело с заявлениями случая

Я имею дело с преобразованием кода SQL в код PySpark и натолкнулся на некоторые операторы SQL. Я не знаю, как подойти к описанию случаев в pyspark? Я планиру...