O XMLCorpusReader do NLTK pode ser usado em um corpus de vários arquivos?

Question

Jul 27, 2011, 12:52 AM

O XMLCorpusReader do NLTK pode ser usado em um corpus de vários arquivos?

Estou tentando usar o NLTK para fazer algum trabalho no Corpus anotado de New York Times, que contém um arquivo XML para cada artigo (no formato NITF do setor de notícias

Posso analisar documentos individuais sem nenhum problema como este:

from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')

Eu preciso trabalhar em todo o corpus. Eu tentei fazer isso:

reader = XMLCorpusReader('corpora/nytimes', r'.*')

mas isso não cria um objeto leitor utilizável. Por exempl

len(reader.words())

retorna

raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string

Como leio este corpus no NLTK?

Sou novo no NLTK, então qualquer ajuda é muito apreciad

questionAnswers(3)

Perguntas populares

0 a resposta

Como escapar aspas duplas em atributos em uma String XML no T-SQ

0 a resposta

Como mostrar imagem e vídeo como miniatura na visualização em grade?

0 a resposta

GAC 32bit vs. 64bit

0 a resposta

Calcule um total em execução no MySQL

0 a resposta

Como quebrar "for loop" no modelo do Django

Você é muito ativo! É ótimo!

O XMLCorpusReader do NLTK pode ser usado em um corpus de vários arquivos?

questionAnswers(3)

yourAnswerToTheQuestion

Perguntas populares