PySpark - перекрытие времени для объекта в RDD

Моя цель - группировать объекты по времени.

Каждый объект в моемrdd содержитstart_time а такжеend_time.

Возможно, я неэффективно это делаю, но я планирую назначить идентификатор перекрытия каждому объекту на основе того, имеет ли он какое-либо время перекрытия с любым другим объектом. У меня есть логика для перекрытия времени вниз. Затем я надеюсь сгруппировать по этомуoverlap_id.

Итак, во-первых,

mapped_rdd = rdd.map(assign_overlap_id)
final_rdd = mapped_rdd.reduceByKey(combine_objects)

Теперь это касается моего вопроса. Как я могу написать функцию assign_overlap_id?

def assign_overlap_id(x):
  ...
  ...
  return (overlap_id, x)

Ответы на вопрос(1)

Ваш ответ на вопрос