Se puede utilizar XMLCorpusReader de NLTK en un corpus de varios archivos?

Question

Jul 27, 2011, 12:52 AM

Se puede utilizar XMLCorpusReader de NLTK en un corpus de varios archivos?

Estoy tratando de usar NLTK para trabajar en laNew York Times Corpus anotado que contiene un archivo XML para cada artículo (en el formato de texto News Industry NITF).

Puedo analizar documentos individuales sin ningún problema así:

from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')

Aunque necesito trabajar en todo el corpus. Intenté hacer esto:

reader = XMLCorpusReader('corpora/nytimes', r'.*')

pero esto no crea un objeto lector utilizable. Por ejempl

len(reader.words())

devolucione

raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string

¿Cómo leo este corpus en NLTK?

Soy nuevo en NLTK, por lo que cualquier ayuda es muy apreciada.

Respuestas a la pregunta(3)

Preguntas populares

0 la respuesta

Cómo invocar métodos desde el constructor en F #

0 la respuesta

Publique el punto final JAX-WS con Jetty 7 incrustado

0 la respuesta

Agregando dinámicamente directivas en ng-repeat

0 la respuesta

Obtenga la frecuencia de Hz de la transmisión de audio en iPhone

0 la respuesta

Utilice los recursos de una dependencia?

¡Eres muy activo! ¡Es genial!

Se puede utilizar XMLCorpusReader de NLTK en un corpus de varios archivos?

Respuestas a la pregunta(3)

Su respuesta a la pregunta

Preguntas populares