Лучший способ определить и извлечь даты из текста Python?
В рамках более крупного личного проекта яя работаю надЯ пытаюсь отделить встроенные даты от различных текстовых источников.
Например, у меня есть большой список строк (которые обычно принимают форму английских предложений или утверждений), которые принимают различные формы:
Заседание центральной проектной комиссии вторник 22.10 18:30
Th 9/19 LAB: последовательное кодирование (раздел 2.2)
15 декабря будет еще один для тех, кто не может сделать это сегодня.
Рабочая тетрадь 3 (минимальная заработная плата): среда 9/18 23:59
Он будет летать 15 сентября.
Хотя эти даты соответствуют естественному тексту, ни одна из них не находится в самих формах естественного языка (например,нет "Встреча состоится через две недели "Это'все ясно).
Как тот, кто неу меня нет слишком большого опыта в такой обработке, с чего лучше начинать? Я'мы смотрели на такие вещи, какdateutil.parser
модуль иparsedatetime, но те, кажется, дляпосле вы'мы выделили дату.
Из-за этого, есть ли хороший способ извлечь дату и посторонний текст
input: Th 9/19 LAB: Serial encoding (Section 2.2)
output: ['Th 9/19', 'LAB: Serial encoding (Section 2.2)']
или что-то подобное? Кажется, что такого рода обработка выполняется такими приложениями, как Gmail и Apple Mail, но возможно ли это реализовать в Python?