LookupError: recurso 'corpora / stopwords' no encontrado
Estoy tratando de ejecutar una aplicación web en Heroku usando Flask. La aplicación web se programa en Python con la NLTK (biblioteca del kit de herramientas de lenguaje natural).
Uno de los archivos tiene el siguiente encabezado:
import nltk, json, operator
from nltk.corpus import stopwords
from nltk.tokenize import RegexpTokenizer
Cuando se llama a la página web con el código de palabras vacías, se produce el siguiente error:
LookupError:
**********************************************************************
Resource 'corpora/stopwords' not found. Please use the NLTK
Downloader to obtain the resource: >>> nltk.download()
Searched in:
- '/app/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
**********************************************************************
El código exacto utilizado:
#remove punctuation
toker = RegexpTokenizer(r'((?<=[^\w\s])\w(?=[^\w\s])|(\W))+', gaps=True)
data = toker.tokenize(data)
#remove stop words and digits
stopword = stopwords.words('english')
data = [w for w in data if w not in stopword and not w.isdigit()]
La aplicación web en Heroku no produce el error de búsqueda cuandostopword = stopwords.words('english')
está comentado
El código se ejecuta sin fallas en mi computadora local. He instalado las bibliotecas necesarias en mi computadora usando
pip install requirements.txt
El entorno virtual proporcionado por Heroku se estaba ejecutando cuando probé el código en mi computadora.
También probé el NLTK proporcionado por dos fuentes diferentes, pero elLookupError
todavía está ahí. Las dos fuentes que utilicé son:
http://pypi.python.org/packages/source/n/nltk/nltk-2.0.1rc4.zip
https://github.com/nltk/nltk.git