Se puede utilizar XMLCorpusReader de NLTK en un corpus de varios archivos?
Estoy tratando de usar NLTK para trabajar en laNew York Times Corpus anotado que contiene un archivo XML para cada artículo (en el formato de texto News Industry NITF).
Puedo analizar documentos individuales sin ningún problema así:
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')
Aunque necesito trabajar en todo el corpus. Intenté hacer esto:
reader = XMLCorpusReader('corpora/nytimes', r'.*')
pero esto no crea un objeto lector utilizable. Por ejempl
len(reader.words())
devolucione
raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string
¿Cómo leo este corpus en NLTK?
Soy nuevo en NLTK, por lo que cualquier ayuda es muy apreciada.