LookupError: recurso 'corpora / stopwords' no encontrado

Question

Jun 08, 2014, 05:02 PM

LookupError: recurso 'corpora / stopwords' no encontrado

Estoy tratando de ejecutar una aplicación web en Heroku usando Flask. La aplicación web se programa en Python con la NLTK (biblioteca del kit de herramientas de lenguaje natural).

Uno de los archivos tiene el siguiente encabezado:

import nltk, json, operator
from nltk.corpus import stopwords 
from nltk.tokenize import RegexpTokenizer

Cuando se llama a la página web con el código de palabras vacías, se produce el siguiente error:

LookupError: 
**********************************************************************
  Resource 'corpora/stopwords' not found.  Please use the NLTK  
  Downloader to obtain the resource:  >>> nltk.download()  
  Searched in:  
    - '/app/nltk_data'  
    - '/usr/share/nltk_data'  
    - '/usr/local/share/nltk_data'  
    - '/usr/lib/nltk_data'  
    - '/usr/local/lib/nltk_data'  
**********************************************************************

El código exacto utilizado:

#remove punctuation  
toker = RegexpTokenizer(r'((?<=[^\w\s])\w(?=[^\w\s])|(\W))+', gaps=True) 
data = toker.tokenize(data)  

#remove stop words and digits 
stopword = stopwords.words('english')  
data = [w for w in data if w not in stopword and not w.isdigit()]

La aplicación web en Heroku no produce el error de búsqueda cuandostopword = stopwords.words('english') está comentado

El código se ejecuta sin fallas en mi computadora local. He instalado las bibliotecas necesarias en mi computadora usando

pip install requirements.txt

El entorno virtual proporcionado por Heroku se estaba ejecutando cuando probé el código en mi computadora.

También probé el NLTK proporcionado por dos fuentes diferentes, pero elLookupError todavía está ahí. Las dos fuentes que utilicé son:
http://pypi.python.org/packages/source/n/nltk/nltk-2.0.1rc4.zip
https://github.com/nltk/nltk.git