#rdf #graphdb
#rdf #graphdb
Вопрос:
У меня есть файл .rdf (сжатый более 2 ГБ), который, по-видимому, имеет дублированную диафрагму посередине и, возможно, другие проблемы.
Следующая ошибка в рабочей среде во время импорта:
RDF Parse Error: ID '_D5C2483C53D3F747_up.name_uORF' has already been defined [line 6907110, column 53
Есть ли инструмент для предварительной обработки этих огромных файлов перед импортом с использованием некоторого определенного поведения, например, «просто пропустите это» и т. Д.?
Комментарии:
1. Похоже, вы пытаетесь импортировать данные Uniprot. Я наткнулся на ту же проблему и решил ее с помощью скрипта Python, который удаляет дублированные строки (всегда оставляя первый экземпляр). Это не универсальное решение, поскольку оно решает только этот конкретный случай Uniprot, но в случае, если вам все еще интересно, я мог бы опубликовать его в качестве ответа.
Ответ №1:
При импорте файлов через GraphDB Workbench появляется раскладное меню «Дополнительные настройки». Сложите это, у него есть несколько опций, которые вы можете включить или отключить в отношении проверки, в том числе «Должен остановиться по ошибке». Я не могу быть уверен, что он продолжит работу с этой конкретной ошибкой, если вы отключите эту опцию (есть некоторые синтаксические ошибки, от которых анализатор просто не может оправиться), но попробовать стоит.