Dado um período, como podemos dividi-lo em N subintervalos contíguos?
Estou acessando alguns dados por meio de uma API em que preciso fornecer o período para minha solicitação, ex. start = '20100101', end = '20150415'. Eu pensei em acelerar isso dividindo o período em intervalos sem sobreposição e usando o multiprocessamento em cada intervalo.
Meu problema é que a maneira como estou dividindo o período não está sempre me dando o resultado esperado. Aqui está o que eu fiz:
from datetime import date
begin = '20100101'
end = '20101231'
Suponha que desejássemos dividir isso em quatro partes. Primeiro eu altero a string para datas:
def get_yyyy_mm_dd(yyyymmdd):
# given string 'yyyymmdd' return (yyyy, mm, dd)
year = yyyymmdd[0:4]
month = yyyymmdd[4:6]
day = yyyymmdd[6:]
return int(year), int(month), int(day)
y1, m1, d1 = get_yyyy_mm_dd(begin)
d1 = date(y1, m1, d1)
y2, m2, d2 = get_yyyy_mm_dd(end)
d2 = date(y2, m2, d2)
Em seguida, divida esse intervalo em subintervalos:
def remove_tack(dates_list):
# given a list of dates in form YYYY-MM-DD return a list of strings in form 'YYYYMMDD'
tackless = []
for d in dates_list:
s = str(d)
tackless.append(s[0:4]+s[5:7]+s[8:])
return tackless
def divide_date(date1, date2, intervals):
dates = [date1]
for i in range(0, intervals):
dates.append(dates[i] + (date2 - date1)/intervals)
return remove_tack(dates)
Usando begin e end de cima, obtemos:
listdates = divide_date(d1, d2, 4)
print listdates # ['20100101', '20100402', '20100702', '20101001', '20101231'] looks correct
Mas se eu usar as datas:
begin = '20150101'
end = '20150228'
...
listdates = divide_date(d1, d2, 4)
print listdates # ['20150101', '20150115', '20150129', '20150212', '20150226']
Estou faltando dois dias no final de fevereiro. Não preciso de tempo ou fuso horário para o meu aplicativo e não me importo de instalar outra biblioteca.