Azure Data Lake Analytics: объедините перекрывающуюся длительность времени с помощью U-SQL

Я хочу удалить перекрывающуюся длительность времени из данных CSV, помещенных в хранилище озера данных Azure с помощью U-SQL, и объединить эти строки. Набор данных содержит время начала и время окончания с несколькими другими атрибутами для каждой записи. Вот пример:

Start Time - End Time - Usar Name
5:00 AM - 6:00 AM - ABC
5:00 AM - 6:00 AM - XYZ
8:00 AM - 9:00 AM - ABC
8:00 AM - 10:00 AM - ABC
10:00 AM - 2:00 PM - ABC
7:00 AM - 11:00 AM - ABC
9:00 AM - 11:00 AM - ABC
11:00 AM - 11:30 AM - ABC

После удаления перекрытия выходной набор данных будет выглядеть так:

Start Time - End Time - Usar Name
5:00 AM - 6:00 AM - ABC
5:00 AM - 6:00 AM - XYZ
7:00 AM - 2:00 PM - ABC

Обратите внимание, что CSV содержит огромное количество данных и состоит из нескольких ГБ. Я пытаюсь решить эту проблему, но не повезло. Я хочу избежать U-SQL Определяемые пользователем операторы для заданий Azure Data Lake Analytics и искать какое-то эффективное решение из U-SQL.

Ответы на вопрос(1)

Ваш ответ на вопрос