Общедоступные наборы данных для эксперимента Крэнфилда

#information-retrieval

#поиск информации

Вопрос:

Я пытаюсь оценить подход к поиску информации. Таким образом, мне нужны данные, подходящие для эксперимента Крэнфилда:

  1. Документы (D)
  2. Запросы (Q)
  3. Актуальность (Q, D)

К сожалению, я не нашел ничего из того, что находится в свободном доступе…

Комментарии:

1. Вы можете найти часть или вариант коллекции «Крэнфилда» (225 запросов, 1398 документов и 1837 оценок релевантности) на веб-сайте Университета Глазогова среди других коллекций IR: ir.dcs.gla.ac.uk/resources/test_collections

Ответ №1:

Наборы данных:

Крэнфилд выпустил коллекцию из примерно 3000 тезисов и набора запросов с оценками релевантности. Однако работать с этой коллекцией не рекомендуется, поскольку она очень мала.

Для коллекций среднего размера вы можете использовать данные специального поиска TREC, которые представлены в 5 томах. Обычно используются тома 4 и 5. Эти документы (около полумиллиона) соответствуют набору надежных запросов TREC (TREC 6/7/8 и надежные дорожки), состоящему в общей сложности из 250 запросов.

Данные задачи поиска INEX ad hoc состоят из набора XML-документов (коллекция из 27 ГБ дампа Википедии). Оценки релевантности включают соответствующие абзацы, отмеченные во всех статьях. Задача состоит в том, чтобы восстановить эти отрывки.

Для документов не на английском языке вы можете использовать данные ключа (европейские языки) или данные FIRE (языки Южной Азии).

Для больших коллекций вы можете использовать ClueWeb (дорожка веб-поиска TREC). Размер составляет 25 ТБ.

В качестве альтернативы вы также можете использовать наборы тестов для конкретной предметной области, такие как корпус твитов (поисковый трек TREC в микроблогах), юридические документы (юридический трек TREC), коллекции патентов (CLEF-IP), медицинские коллекции (Pub-Med) и т.д.

Доступность:

Большинство из этих коллекций находятся в свободном доступе. Вам просто нужно зарегистрироваться для участия в треке (если он продолжается), и они предоставят вам доступ к данным. Некоторые прошлые треки делают данные доступными на веб-страницах треков. Данные TREC ad hoc и ClueWeb недоступны в свободном доступе. Однако последние треки TREC делают данные свободно доступными. Все различные наборы данных INEX, FIRE и CLEF находятся в свободном доступе. Просто отправьте электронное письмо (прошлым) организаторам на случай, если они удалили ссылки на данные.