Проблема синтаксического анализа Jena для дампа свободной базы RDF (январь 2014 г.)

Question

Jan 22, 2014, 05:44 AM

Проблема синтаксического анализа Jena для дампа свободной базы RDF (январь 2014 г.)

Я пытаюсь проанализировать файл дампа freebase freebase-rdf-2014-01-12-00-00.gz (25 ГБ) с помощью Jena. Было много проблем, о которых сообщила Йена относительно плохих данных. Пример - 150.0 недопустимо, значения true и false недействительны. Эти проблемы я решил, добавив двойные кавычки вокруг десятичной дроби и true / false в файле дампа. Однако проблемы по-прежнемуreported by Jena.(current - org.apache.jena.riot.RiotException: [line: 161083, col: 110] Illegal object: [MINUS])

Есть ли способ предварительно обработать эти данные, чтобы мне не приходилось исправлять каждую проблему по очереди. Мой код Java:

    // Open TDB dataset
    String directory = "D:/test_dump";
    Dataset dataset = TDBFactory.createDataset(directory);

    // Assume we want the default model, or we could get a named model here
    Model tdb = dataset.getDefaultModel();

    // Read the input file - only needs to be done once
    String source = "D:/test_dump/fixed-freebase-second-rdf.gz";
    FileManager.get().readModel( tdb, source, "N-TRIPLES" );

Проблема синтаксического анализа Jena для дампа свободной базы RDF (январь 2014 г.)

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Проблема синтаксического анализа Jena для дампа свободной базы RDF (январь 2014 г.)

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы