Инструмент для предварительной обработки .rdf для импорта рабочей среды GraphDB?

#rdf #graphdb

#rdf #graphdb

Вопрос:

У меня есть файл .rdf (сжатый более 2 ГБ), который, по-видимому, имеет дублированную диафрагму посередине и, возможно, другие проблемы.

Следующая ошибка в рабочей среде во время импорта:

   RDF Parse Error: ID '_D5C2483C53D3F747_up.name_uORF' has already been defined [line 6907110, column 53
  

Есть ли инструмент для предварительной обработки этих огромных файлов перед импортом с использованием некоторого определенного поведения, например, «просто пропустите это» и т. Д.?

Комментарии:

1. Похоже, вы пытаетесь импортировать данные Uniprot. Я наткнулся на ту же проблему и решил ее с помощью скрипта Python, который удаляет дублированные строки (всегда оставляя первый экземпляр). Это не универсальное решение, поскольку оно решает только этот конкретный случай Uniprot, но в случае, если вам все еще интересно, я мог бы опубликовать его в качестве ответа.

Ответ №1:

При импорте файлов через GraphDB Workbench появляется раскладное меню «Дополнительные настройки». Сложите это, у него есть несколько опций, которые вы можете включить или отключить в отношении проверки, в том числе «Должен остановиться по ошибке». Я не могу быть уверен, что он продолжит работу с этой конкретной ошибкой, если вы отключите эту опцию (есть некоторые синтаксические ошибки, от которых анализатор просто не может оправиться), но попробовать стоит.