#xml #search-engine #information-retrieval
#xml #поисковая система #поиск информации
Вопрос:
Я не знаю, можно ли задать этот вопрос здесь, но я так усердно искал это и снова заходил в тупик. Я работаю над проектом по исследованию поиска информации. Я запрограммировал свою поисковую систему, но не могу ее протестировать, потому что мне нужен этот XML-корпус Википедии. Это я нашел http://www-connex.lip6.fr /~denoyer/wikipediaXML/ но это оказывается бесполезным. Пожалуйста, дайте мне знать, если кто-нибудь знает способ достать мне этот корпус
Комментарии:
1. Поскольку en.wikipedia.org/wiki/Wikipedia:Database_download это не то, что вы ищете, возможно, вам следует уточнить, что именно вам нужно, и почему ссылка, которую вы дали в описании, бесполезна.
2. Попробуйте зарегистрироваться по этой ссылке .. вы поймете… упомянутая здесь ссылка содержит обычный текст, а мне нужен xml-структурированный корпус….
3. Если вы не облегчите задачу тем, кто пытается вам помочь, то и они вам не помогут. (a) На сайте написано «Этот корпус состоит из более чем 600 000 XML-документов на английском языке», так где же обычный текст? (b) почему ссылка на википедию бесполезна? В заголовке вашего сообщения указано, что это XML-корпус Википедии.
4. Лукас, когда я пытаюсь зарегистрироваться по этой ссылке, сайт вылетает с сообщением не удается подключиться к базе данных. Что касается ссылок на википедию, я просматриваю их вторично, чтобы вы знали. Не обижайтесь, я действительно был кое-чем разочарован. Приношу свои извинения, если я посчитал это неправильным.
5. Я просто попытался «просмотреть» каталоги, а также получил «cannont connect to database». Как долго вы пытались получить этот доступ, часы или дни? Если более 1 дня, то, возможно, электронное письмо одному из владельцев. Удачи. Пожалуйста, отправьте обратно то, что вы найдете.
Ответ №1:
Похоже, что предоставленная вами страница представляет XML-корпус Википедии, используемый на семинаре INEX 2007. Я нашел этот сайт, на котором хранится набор данных википедии, используемый в 2009-2010 ad hoc (я думаю, что кластеризация тоже), в INEX. Я думаю, вы тоже можете им воспользоваться.
На всякий случай вы можете воспользоваться официальным XML-дампом викимедиа: дампы английской Википедии. Дополнительная информация и другие языки: Загрузка базы данных Википедии