Обновите указанные ниже переменные в соответствии с вашими требованиями tcolunm1, tablename, OFFSEtvalue, limtvalue

олее конкретный вопрос: как я могу обрабатывать большие объемы данных, которые не помещаются в память сразу? С OFFSET я пытался сделать hiveContext.sql ("select ... limit 10 offset 10"), увеличивая смещение, чтобы получить все данные, но смещение не похоже на действительное в hiveContext. Какая альтернатива обычно используется для достижения этой цели?

Для некоторого контекста код pyspark начинается с

from pyspark.sql import HiveContext
hiveContext = HiveContext(sc)
hiveContext.sql("select ... limit 10 offset 10").show()

Ответы на вопрос(1)

Ваш ответ на вопрос