#python-3.x #rdflib #turtle-rdf
#python-3.x #rdflib #turtle-rdf
Вопрос:
Я использую файлы turtle, содержащие биографическую информацию, для исторических исследований. Эти файлы предоставляются основной библиотекой, и большая часть информации в файлах не является явной. В то время как профессии людей, например, иногда указываются рядом со ссылками на URI библиотеки, в большинстве случаев у меня есть только URI. Вот почему мне нужно будет получить информацию, стоящую за ними, в какой-то момент моего рабочего процесса, и я был бы признателен за некоторые советы.
Я хочу использовать RDFLib Python для синтаксического анализа файлов .ttl. Какой ваш рекомендуемый рабочий процесс? Должен ли я сначала прочитать интересующие меня префиксы, затем сохранить результаты в .txt (?), А затем написать скрипт для извлечения фактической информации из Интернета, заменив URI?
Я также видел, что есть способы конвертировать RDFS непосредственно в CSV, но, хотя с CSV приятно работать, я бы получил много нежелательного «фонового шума», просто преобразовав все данные.
Что бы вы порекомендовали?
Ответ №1:
RDFLib — это все о работе с данными RDF. Если у вас есть данные в формате RDF, я предлагаю сделать как можно больше данных в формате RDF, а затем экспортировать в CSV только в том случае, если вы хотите сделать что-то вроде печати табличных результатов или загрузки в фреймы данных Pandas. Конечно, всегда есть несколько способов сделать что-то, чтобы вы могли манипулировать данными в CSV, но RDF по своей конструкции содержит гораздо больше информации, чем файл CSV, поэтому, когда вы манипулируете данными RDF, у вас есть больше возможностей для доступа.
большая часть информации в файлах не является явной
Лучше сформулировано: большая часть информации указывается объектами, идентифицируемыми URI, а не задается как литеральные значения.
Я хочу использовать RDFLib Python для синтаксического анализа файлов .ttl. Какой ваш рекомендуемый рабочий процесс? Должен ли я сначала прочитать интересующие меня префиксы, затем сохранить результаты в .txt (?), А затем написать скрипт для извлечения фактической информации из Интернета, заменив URI?
Нет! Вы должны сохранить файлы ttl, которые вы можете получить, и тогда вы действительно сможете получить все другие данные, на которые ссылается URI, но, предположительно, эти данные также находятся в форме RDF, поэтому вам следует загрузить их в тот же график, в который вы загрузили исходные файлы ttl, и тогда вы сможете получить полный график сссылки и литеральные значения позволяют вам манипулировать запросами SPARQL.