#json #dataset #wikipedia #wikipedia-api #wikidata
#json #набор данных #википедия #википедия-api #викиданные
Вопрос:
Я хотел бы получить ~ 10 000 названий статей Википедии по просмотрам страниц в проекте английской Вики.
Мне не нужны просмотры страниц вместе с данными. Мне просто нужно знать, что у меня есть 10 000 лучших названий статей.
Список из 10 000 лучших был бы отличным, так как я могу использовать его для очистки. JSON верхнего X было бы еще лучше!
Topviews и Massviews были отличным ресурсом и очень близки к тому, что я ищу!
Однако Topviews ограничивает список до 490, а для Massviews требуется поисковый запрос. Я хотел бы получить самые популярные статьи вики во всем английском проекте.
Я открыт для дампов данных, API или любого другого существующего инструмента. Ценю помощь Вики.
Комментарии:
1. Совершенно уверен, что вам нужно будет сделать это через дампы. Самые последние здесь: dumps.wikimedia.org/other/pageviews/2019/2019-04
2. Смогли ли вы выяснить, как получить N лучших названий статей?
Ответ №1:
Вот ответ на мой вопрос выше от создателя инструмента Massviews / Topviews, замечательного мистера Леона Зиембы:
Я не уверен, что вы подразумеваете под «всеми категориями». Вы имеете в виду все статьи по всему проекту? Существуетhttps://tools.wmflabs.org/topviews , если это поможет.
Или вы имеете в виду, что хотите предоставить массовым просмотрам сразу несколько категорий? Если это так, обходным путем было бы использовать комбинацию Petscan, Page Pile, затем Massviews: * Перейти к https://petscan.wmflabs.org добавить добавьте свои категории, выбрав «объединение» в качестве «Комбинации», затем нажмите «Сделай это!». * Нажмите на вкладку «Вывод» в правом верхнем углу, выберите «Файл подкачки» в качестве формата. Другие варианты, вероятно, можно оставить как есть. Нажмите «Сделать это!» еще раз. * Теперь вы должны быть в файле подкачки. В левом верхнем углу будет написано «Стопка 123», где 123 — номер стопки. Примите это к сведению. * Вернитесь к массовым просмотрам. Выберите «Стопку страниц» в качестве источника и укажите номер стопки. * Прибыль!
В массовых просмотрах есть опция «Включить все подкатегории». Может быть, это поможет вам здесь. Однако по соображениям производительности вы получите более 20 000 результатов.
Если вам нужны 10 000 страниц по просмотрам страниц для всех страниц во всей английской Википедии, это нужно будет вычислить вручную, используя необработанные наборы данных. Было бы невозможно, чтобы инструмент просматривал каждую отдельную статью Википедии в режиме реального времени. Исходные дампы набора данных можно найти по адресуhttps://dumps.wikimedia.org/other/pageviews .