ocumentação automática de conjuntos de dad

Estou trabalhando em um projeto no momento em que tenho acumulado lentamente um monte de variáveis diferentes de um monte de fontes diferentes. Sendo uma pessoa um tanto inteligente, criei um subdiretório diferente para cada um no diretório "original_data" principal e incluí um arquivo .txt com a URL e outros descritores de onde obtive os dados. Sendo uma pessoa insuficientemente inteligente, esses arquivos .txt não têm estrutura.

gora, estou enfrentando a tarefa de compilar uma seção de métodos que documenta todas as diferentes fontes de dados. Estou disposto a analisar e adicionar estrutura aos dados, mas precisaria encontrar ou criar uma ferramenta de relatório para verificar os diretórios e extrair as informaçõe

Isso parece algo queProjectTemplate já teria, mas não consigo encontrar essa funcionalidade lá.

Existe uma ferramenta desse tipo?

Se não for o caso, que considerações devem ser levadas em consideração para fornecer flexibilidade máxima? Algumas reflexões preliminares:

Uma linguagem de marcação deve ser usada (YAML?)odos os subdiretórios devem ser verificadPara facilitar (2), uma extensão padrão para um descritor de conjunto de dados deve ser usadaCriticamente, para tornar isso mais útil, é necessário que haja uma maneira de combinar descritores de variáveis com o nome que eles assumem. Portanto, toda a renomeação de variáveis deve ser feita nos arquivos de origem, e não em uma etapa de limpeza (abaixo do ideal); algumas análises de código devem ser feitas pelo mecanismo de documentação para rastrear as alterações no nome das variáveis (ugh!) Ou algumas deve ser usado um híbrido mais simples, como permitir que a renomeação da variável seja especificada no arquivo de marcaçãIdealmente, o relatório também seria modelado (por exemplo, "nós extraímos a variável [var] do conjunto de dados [dset] em [data].") E possivelmente vinculado ao Sweave. A ferramenta deve ser flexível o suficiente para não ser excessivamente onerosa. Isso significa que a documentação mínima seria simplesmente um nome de conjunto de dado

questionAnswers(1)

yourAnswerToTheQuestion