Aproximação rápida de Haversine (Python / Pandas)
Cada linha em um dataframe do Pandas contém coordenadas lat / lng de 2 pontos. Usando o código Python abaixo, o cálculo das distâncias entre esses 2 pontos para muitas (milhões) de linhas leva muito tempo!
Considerando que os 2 pontos estão a menos de 80 km de distância e a precisão não é muito importante, é possível acelerar o cálculo?
from math import radians, cos, sin, asin, sqrt
def haversine(lon1, lat1, lon2, lat2):
"""
Calculate the great circle distance between two points
on the earth (specified in decimal degrees)
"""
# convert decimal degrees to radians
lon1, lat1, lon2, lat2 = map(radians, [lon1, lat1, lon2, lat2])
# haversine formula
dlon = lon2 - lon1
dlat = lat2 - lat1
a = sin(dlat/2)**2 + cos(lat1) * cos(lat2) * sin(dlon/2)**2
c = 2 * asin(sqrt(a))
km = 6367 * c
return km
for index, row in df.iterrows():
df.loc[index, 'distance'] = haversine(row['a_longitude'], row['a_latitude'], row['b_longitude'], row['b_latitude'])