Как загрузить все перечисленные файлы с веб-страницы, где URL-адреса не имеют определенных имен файлов

#curl #web-scraping #wget

#curl #очистка веб-страниц #wget

Вопрос:

Я хотел бы загрузить все наборы данных с этой страницы: http://www.data.gov/catalog/geodata/category/0/agency/0/filter/sort/page/1/count/20

Я пробовал wget, но вот в чем проблема:

В ссылке URL-адреса на файл нет имени файла, и у них могут быть разные типы файлов.

Вот пример URL-адреса файла: http://www.data.gov/download/CECA1FB2-EA36-537B-8C68-298CCA449697/geodata

Шаблон заключается в том, что все URL-адреса начинаются с http: // www.data.gov/download / и заканчивается на /геоданные

Каков наилучший способ очистить этот веб-сайт? Должен ли я использовать wget, cURL, PHP-скрипт или что-то еще?

Комментарии:

1. Я все еще задаюсь этим вопросом, поэтому любые комментарии или предложения приветствуются!

Ответ №1:

Почему wget не будет работать в этом случае? На основе ваших примеров URL-адресов рекурсивный поиск wget поместит каждый загруженный файл в файл «геоданные» в его собственном каталоге. Как только он окажется на вашем локальном диске, вы сможете делать с данными все, что захотите, включая переименование и перемещение файлов в более удобную форму (например, с помощью mmv или команды find -exec).