#shell #wget
#оболочка #wget
Вопрос:
У меня есть примерно 4000 страниц для загрузки, каждая из которых имеет одну ссылку на следующую страницу. Эта ссылка всегда имеет один и тот же текст (и атрибут name). Я довольно внимательно прочитал документацию для wget, и есть переключатели для загрузки только определенных расширений, только из определенных каталогов / хостов и так далее. Я не могу найти ничего, что указывало бы на то, что он может фильтровать на основе текста ссылки.
Есть ли какой-то трюк, который я не вижу? Вариант использования кажется достаточно общим, и я не могу представить, что я первый, кому это когда-либо понадобится.
Комментарии:
1. Я должен согласиться с тем, что нет возможности
wget
фильтровать ссылки по тексту ссылки. Нет ли в URL-адресах какого-либо шаблона, который можно использовать для фильтрации через-I
/-X
(каталоги) или-A
/-R
(имена файлов)?2. Я не вижу шаблона. Есть какой-то внутренний идентификационный номер базы данных, но он не последовательный… Я думаю, что это pk, где некоторые строки были удалены. Но всегда есть ссылка «Следующая страница», а иногда и «Продолжение». тексты ссылок. У меня это в цикле bash, регулярное выражение выполняется с помощью perl, но проведенные мной тесты показывают, что я бы увидел улучшение скорости в 10 раз, если бы wget сделал это сам. Думаю, мне придется жить с этим как есть.
3. Я мог бы предположить, что вы можете повысить производительность, переместив цикл в свой сценарий perl, поскольку тогда вы будете вызывать интерпретатор perl только один раз.