Se puede utilizar XMLCorpusReader de NLTK en un corpus de varios archivos?

Question

Jul 27, 2011, 12:52 AM

Se puede utilizar XMLCorpusReader de NLTK en un corpus de varios archivos?

Estoy tratando de usar NLTK para trabajar en laNew York Times Corpus anotado que contiene un archivo XML para cada artículo (en el formato de texto News Industry NITF).

Puedo analizar documentos individuales sin ningún problema así:

from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')

Aunque necesito trabajar en todo el corpus. Intenté hacer esto:

reader = XMLCorpusReader('corpora/nytimes', r'.*')

pero esto no crea un objeto lector utilizable. Por ejempl

len(reader.words())

devolucione

raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string

¿Cómo leo este corpus en NLTK?

Soy nuevo en NLTK, por lo que cualquier ayuda es muy apreciada.

Respuestas a la pregunta(3)

Preguntas populares

0 la respuesta

coma separada por secuencia en estructura

0 la respuesta

¿Las macros de preprocesador C / C ++ tienen valores de parámetro predeterminados? [duplicar

0 la respuesta

La cadena # no codifica el error "secuencia de bytes no válida en UTF-8" error

0 la respuesta

Arduino F (): que hace en realidad

0 la respuesta

Cambio de la ventana de información cuando se utilizan las direcciones de Google

¡Eres muy activo! ¡Es genial!

Se puede utilizar XMLCorpusReader de NLTK en un corpus de varios archivos?

Respuestas a la pregunta(3)

Su respuesta a la pregunta

Preguntas populares