Спарк автоматически кеширует некоторые результаты?

Я запускаю действие два раза, а второй раз занимает очень мало времени, поэтому я подозреваю, что спарк автоматически кеширует некоторые результаты. Но я нашел какой-либо источник.

Я использую Spark1.4.

doc = sc.textFile('...')
doc_wc = doc.flatMap(lambda x: re.split('\W', x))\
            .filter(lambda x: x != '') \
            .map(lambda word: (word, 1)) \
            .reduceByKey(lambda x,y: x+y) 
%%time
doc_wc.take(5) # first time
# CPU times: user 10.7 ms, sys: 425 µs, total: 11.1 ms
# Wall time: 4.39 s

%%time
doc_wc.take(5) # second time
# CPU times: user 6.13 ms, sys: 276 µs, total: 6.41 ms
# Wall time: 151 ms

Ответы на вопрос(1)

Ваш ответ на вопрос