#curl #web-scraping #wget
#curl #очистка веб-страниц #wget
Вопрос:
Я хотел бы загрузить все наборы данных с этой страницы: http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20
Я пробовал wget, но вот в чем проблема:
В ссылке URL-адреса на файл нет имени файла, и у них могут быть разные типы файлов.
Вот пример URL-адреса файла: http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata
Шаблон заключается в том, что все URL-адреса начинаются с http: // www.data.gov/download / и заканчивается на /геоданные
Каков наилучший способ очистить этот веб-сайт? Должен ли я использовать wget, cURL, PHP-скрипт или что-то еще?
Комментарии:
1. Я все еще задаюсь этим вопросом, поэтому любые комментарии или предложения приветствуются!
Ответ №1:
Почему wget не будет работать в этом случае? На основе ваших примеров URL-адресов рекурсивный поиск wget поместит каждый загруженный файл в файл «геоданные» в его собственном каталоге. Как только он окажется на вашем локальном диске, вы сможете делать с данными все, что захотите, включая переименование и перемещение файлов в более удобную форму (например, с помощью mmv или команды find -exec).