Analisar vários arquivos XBRL armazenados em um arquivo zip
Fiz o download de vários arquivos zip de um site. Cada arquivo zip contém várioshtml
exml
arquivos de extensão (~ 100K em cada).
É possível extrair manualmente os arquivos e analisá-los. No entanto, eu gostaria de poder fazer isso dentro deR
(se possível)
Arquivo de exemplo (desculpe, é um pouco grande) usando o código de umpergunta anterior - baixar um arquivo zip
library(XML)
pth <- "http://download.companieshouse.gov.uk/en_monthlyaccountsdata.html"
doc <- htmlParse(pth)
myfiles <- doc["//a[contains(text(),'Accounts_Monthly_Data')]", fun = xmlAttrs][[1]]
fileURLS <- file.path("http://download.companieshouse.gov.uk", myfiles) [[1]]
dir.create("temp", "hmrcCache")
download.file(fileURLS, destfile = file.path("temp", myfiles))
Eu posso analisar os arquivos usando oXBRL package
se eu extraí-los manualmente. Isso pode ser feito da seguinte forma
library(XBRL)
inst <- file.path("temp", "Prod224_0004_00000121_20130630.html")
out <- xbrlDoAll(inst, cache.dir="temp/hmrcCache", prefix.out=NULL, verbose=T)
Estou lutando com como extrair esses arquivos da pasta zip e analisar cada um, digamos, em um loop usando R, sem extraí-los manualmente. Tentei começar, mas não sei como progredir daqui. Obrigado por qualquer conselho.
# Get names of files
lst <- unzip(file.path("temp", myfiles), list=TRUE)
dim(lst) # 118626
# unzip and extract first file
nms <- lst$Name[1] # Prod224_0004_00000121_20130630.html
lst2 <- unz(file.path("temp", myfiles), filename=nms)
Estou usando o Windows 8.1
R versão 3.1.2 (31-10-2014)
Plataforma: x86_64-w64-mingw32 / x64 (64 bits)