Mar 04, 2016, 05:13 PM

apache-spark pyspark rdd performance

Количество разделов в RDD и производительность в Spark

В Pyspark я могу создать RDD из списка и решить, сколько разделов иметь:

sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)

Как количество разделов, которые я решил разделить на моем СДР, влияет на производительность? И как это зависит от количества ядер на моей машине?

Ответы на вопрос(2)

Популярные вопросы

0 ответов

В какой элемент я должен заключить <article /> комментарии?

0 ответов

Запись в закрытый локальный сокет TCP без сбоев

0 ответов

как использовать конкатенацию фиксированной строки и переменной в Python

0 ответов

WebApi2 в визуальной студии 2012

0 ответов

Facebook C # SDK - проверка подлинности сервера