PySpark - перекрытие времени для объекта в RDD
Моя цель - группировать объекты по времени.
Каждый объект в моемrdd
содержитstart_time
а такжеend_time
.
Возможно, я неэффективно это делаю, но я планирую назначить идентификатор перекрытия каждому объекту на основе того, имеет ли он какое-либо время перекрытия с любым другим объектом. У меня есть логика для перекрытия времени вниз. Затем я надеюсь сгруппировать по этомуoverlap_id
.
Итак, во-первых,
mapped_rdd = rdd.map(assign_overlap_id)
final_rdd = mapped_rdd.reduceByKey(combine_objects)
Теперь это касается моего вопроса. Как я могу написать функцию assign_overlap_id?
def assign_overlap_id(x):
...
...
return (overlap_id, x)