Analiza múltiples archivos XBRL almacenados en un archivo zip

Question

Apr 29, 2015, 12:17 AM

Analiza múltiples archivos XBRL almacenados en un archivo zip

He descargado múltiples archivos zip de un sitio web. Cada archivo zip contiene múltipleshtml yxml archivos de extensión (~ 100K en cada uno).

Es posible extraer manualmente los archivos y luego analizarlos. Sin embargo, me gustaría poder hacer esto dentro deR (si es posible)

Archivo de ejemplo (lo siento, es un poco grande) usando el código de unPregunta anterior - descargar un archivo zip

library(XML)

pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
doc <- htmlParse(pth)

myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]", fun = xmlAttrs][[1]]
fileURLS <- file.path("http://download.companieshouse.gov.uk", myfiles) [[1]]

dir.create("temp", "hmrcCache")
download.file(fileURLS, destfile = file.path("temp", myfiles))

Puedo analizar los archivos usando elXBRL package si los extraigo manualmente. Esto puede hacerse de la siguiente manera

library(XBRL)     
inst <- file.path("temp", "Prod224_0004_00000121_20130630.html")
out <- xbrlDoAll(inst, cache.dir="temp/hmrcCache", prefix.out=NULL, verbose=T)

Estoy luchando con cómo extraer estos archivos de la carpeta zip y analizar cada uno, por ejemplo, en un bucle con R, sin extraerlos manualmente. Intenté comenzar, pero no sé cómo progresar desde aquí. Gracias por cualquier consejo

# Get names of files
lst <- unzip(file.path("temp", myfiles), list=TRUE)
dim(lst) # 118626

# unzip  and extract first file
nms <- lst$Name[1] # Prod224_0004_00000121_20130630.html
lst2 <- unz(file.path("temp", myfiles), filename=nms)

Estoy usando Windows 8.1

R versión 3.1.2 (31/10/2014)

Plataforma: x86_64-w64-mingw32 / x64 (64 bits)