Можно ли указать wget переходить только по ссылкам с определенным текстом?

#shell #wget

#оболочка #wget

Вопрос:

У меня есть примерно 4000 страниц для загрузки, каждая из которых имеет одну ссылку на следующую страницу. Эта ссылка всегда имеет один и тот же текст (и атрибут name). Я довольно внимательно прочитал документацию для wget, и есть переключатели для загрузки только определенных расширений, только из определенных каталогов / хостов и так далее. Я не могу найти ничего, что указывало бы на то, что он может фильтровать на основе текста ссылки.

Есть ли какой-то трюк, который я не вижу? Вариант использования кажется достаточно общим, и я не могу представить, что я первый, кому это когда-либо понадобится.

1. Я должен согласиться с тем, что нет возможности wget фильтровать ссылки по тексту ссылки. Нет ли в URL-адресах какого-либо шаблона, который можно использовать для фильтрации через -I / -X (каталоги) или -A / -R (имена файлов)?

2. Я не вижу шаблона. Есть какой-то внутренний идентификационный номер базы данных, но он не последовательный… Я думаю, что это pk, где некоторые строки были удалены. Но всегда есть ссылка «Следующая страница», а иногда и «Продолжение». тексты ссылок. У меня это в цикле bash, регулярное выражение выполняется с помощью perl, но проведенные мной тесты показывают, что я бы увидел улучшение скорости в 10 раз, если бы wget сделал это сам. Думаю, мне придется жить с этим как есть.

3. Я мог бы предположить, что вы можете повысить производительность, переместив цикл в свой сценарий perl, поскольку тогда вы будете вызывать интерпретатор perl только один раз.

Вопрос:

Комментарии:

Вам также может понравиться

Как поймать значение массива JSON в Swagger (PowerApps)

Поток Java : превратите список в список<Список>

видеоролики с глубиной подкачки от as2 до as3?