Проблема синтаксического анализа Jena для дампа свободной базы RDF (январь 2014 г.)

Я пытаюсь проанализировать файл дампа freebase freebase-rdf-2014-01-12-00-00.gz (25 ГБ) с помощью Jena. Было много проблем, о которых сообщила Йена относительно плохих данных. Пример - 150.0 недопустимо, значения true и false недействительны. Эти проблемы я решил, добавив двойные кавычки вокруг десятичной дроби и true / false в файле дампа. Однако проблемы по-прежнемуreported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])

Есть ли способ предварительно обработать эти данные, чтобы мне не приходилось исправлять каждую проблему по очереди. Мой код Java:

    // Open TDB dataset
    String directory = "D:/test_dump";
    Dataset dataset = TDBFactory.createDataset(directory);

    // Assume we want the default model, or we could get a named model here
    Model tdb = dataset.getDefaultModel();

    // Read the input file - only needs to be done once
    String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
    FileManager.get().readModel( tdb, source, "N-TRIPLES" ); 

Ответы на вопрос(2)

Ваш ответ на вопрос