Problem analizowania Jeny dla zrzutu RDF freebase (styczeń 2014)

Question

Jan 22, 2014, 05:44 AM

Problem analizowania Jeny dla zrzutu RDF freebase (styczeń 2014)

Próbuję przeanalizować plik zrzutu freebase freebase-rdf-2014-01-12-00-00.gz (25 GB) za pomocą Jeny. Jena zgłosiła wiele problemów dotyczących złych danych. Przykład - 150.0 niepoprawne, wartości prawda i fałsz nie są poprawne Te problemy rozwiązałem dodając podwójne cudzysłowy wokół dziesiętnych i prawda / fałsz w pliku zrzutu. Jednak problemy są nadalreported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])

Czy jest jakiś sposób, aby wstępnie przetworzyć te dane, dzięki czemu nie muszę naprawiać każdego problemu po kolei. Mój kod Java:

    // Open TDB dataset
    String directory = "D:/test_dump";
    Dataset dataset = TDBFactory.createDataset(directory);

    // Assume we want the default model, or we could get a named model here
    Model tdb = dataset.getDefaultModel();

    // Read the input file - only needs to be done once
    String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
    FileManager.get().readModel( tdb, source, "N-TRIPLES" );