O XMLCorpusReader do NLTK pode ser usado em um corpus de vários arquivos?
Estou tentando usar o NLTK para fazer algum trabalho no Corpus anotado de New York Times, que contém um arquivo XML para cada artigo (no formato NITF do setor de notícias
Posso analisar documentos individuais sem nenhum problema como este:
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')
Eu preciso trabalhar em todo o corpus. Eu tentei fazer isso:
reader = XMLCorpusReader('corpora/nytimes', r'.*')
mas isso não cria um objeto leitor utilizável. Por exempl
len(reader.words())
retorna
raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string
Como leio este corpus no NLTK?
Sou novo no NLTK, então qualquer ajuda é muito apreciad