Extraer nombres de ciudades del texto usando python
Tengo un conjunto de datos donde el título de una columna es "¿Cuál es su ubicación y zona horaria?"
Esto ha significado que tenemos entradas como
Dinamarca, CETLa ubicación es Devon, Inglaterra, zona horaria GMTAustralia. Hora estándar del este de Australia. + 10h UTC.e incluso
Mi ubicación es Eugene, Oregón, la mayor parte del año o en Seúl, Corea del Sur, según las vacaciones escolares. Mi zona horaria principal es la zona horaria del Pacífico.Durante todo el mes de mayo estaré en Londres, Reino Unido (GMT + 1). Durante todo el mes de junio estaré en Noruega (GMT + 2) o Israel (GMT + 3) con acceso limitado a Internet. Durante todo julio y agosto estaré en Londres, Reino Unido (GMT + 1). Y luego, a partir de septiembre de 2015, estaré en Boston, Estados Unidos (EDT)¿Hay alguna forma de extraer la ciudad, el país y la zona horaria de esto?
Estaba pensando en crear una matriz (a partir de un conjunto de datos de código abierto) con todos los nombres de países (incluidos los formularios cortos) y también nombres de ciudades / zonas horarias y luego, si alguna palabra en el conjunto de datos coincide con una ciudad / país / zona horaria o de forma abreviada, rellena esto en una nueva columna en el mismo conjunto de datos y lo cuenta.
¿Es esto práctico?
=========== RESPUESTA BASADA EN LA RESPUESTA NLTK ============
Ejecutando el mismo código que Alecxe obtengo
Traceback (most recent call last):
File "E:\SBTF\ntlk_test.py", line 19, in <module>
tagged_sentences = [nltk.pos_tag(sentence) for sentence in tokenized_sentences]
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\__init__.py", line 110, in pos_tag
tagger = PerceptronTagger()
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 141, in __init__
self.load(AP_MODEL_LOC)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\tag\perceptron.py", line 209, in load
self.model.weights, self.tagdict, self.classes = load(loc)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 801, in load
opened_resource = _open(resource_url)
File "C:\Python27\ArcGIS10.4\lib\site-packages\nltk\data.py", line 924, in _open
return urlopen(resource_url)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 154, in urlopen
return opener.open(url, data, timeout)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 431, in open
response = self._open(req, data)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 454, in _open
'unknown_open', req)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 409, in _call_chain
result = func(*args)
File "C:\Python27\ArcGIS10.4\lib\urllib2.py", line 1265, in unknown_open
raise URLError('unknown url type: %s' % type)
URLError: <urlopen error unknown url type: c>