Jenaer Parsing-Problem für Freebase-RDF-Dump (Jan 2014)

Ich versuche, die Freebase-Dump-Datei freebase-rdf-2014-01-12-00-00.gz (25 GB) mit Jena zu analysieren. Jena hat viele Probleme mit schlechten Daten gemeldet. Beispiel - Werte von 150.0 ungültig, true und false ungültig Diese Probleme wurden behoben, indem in der Speicherauszugsdatei Anführungszeichen um Dezimalstellen und true / false eingefügt wurden. Es gibt jedoch noch Problemereported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])

Gibt es eine Möglichkeit, diese Daten vorab zu verarbeiten, damit ich nicht jedes Problem einzeln beheben muss? Mein Java Code:

    // Open TDB dataset
    String directory = "D:/test_dump";
    Dataset dataset = TDBFactory.createDataset(directory);

    // Assume we want the default model, or we could get a named model here
    Model tdb = dataset.getDefaultModel();

    // Read the input file - only needs to be done once
    String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
    FileManager.get().readModel( tdb, source, "N-TRIPLES" ); 

Antworten auf die Frage(2)

Ihre Antwort auf die Frage