Identificando localizações geográficas no texto
Que tipo de trabalho foi feito para determinar se uma string específica pertence a uma localização geográfica? Por exemplo:
'troy, ny'
'austin, texas'
'hotels in las vegas, nv'
Eu acho que o que eu estou esperando é uma abordagem estatística que dá um grau de confiança de que os dois primeiros são locais. O último provavelmente exigiria uma heurística que agarra "% s,% s" e depois usa a mesma técnica. Eu estou procurando especificamente por abordagens que não dependam muito da proposição 'in', visto que não é um indicador de localidade inteiramente não-ambíguo ou consistentemente disponível.
Alguém pode me apontar abordagens, documentos ou utilitários existentes? Obrigado!