пауки для итеративного поиска html

#python #html #web-crawler #brute-force

#python #HTML #веб-сканер #перебор

Вопрос:

Я хочу получить доступ к веб-сайту с формой example.com /<num>-<num>.html

но я не знаю точного числа в URL.

числа могут варьироваться от 0 до 10000 или более.

Я написал небольшой скрипт на python для этого, но я чувствую, что это очень медленно.

Существуют ли какие-либо существующие инструменты, которые могли бы выполнить эту работу?

 for n in range(0,10000):
  print("n",n)
  for m in range(0,10000):     
      r = url str(n) str('-') str(m) str('.html')
      
      html = requests.get(r,headers=headers)
      try:
        html.raise_for_status()
      except requests.exceptions.HTTPError:
        continue
        #print(r " doesn't exist")
      print(r)
  

также этот код игнорирует возможность появления строк типа 0012, что плохо

Ответ №1:

Я думаю, вам следует создать папку, содержащую код того, что вы хотите создать. Чтобы иметь номера, вы должны назвать папку с этим номером. Я обычно делаю это с веб-сайтами с определенными вложенными страницами. Но если это похоже на сайт социальных сетей с пронумерованными помеченными сообщениями, я не знаю, что делать.

Комментарии:

1. Существует только один действительный веб-сайт, остальные не существуют. Просто я не знаю, что это такое. Так что это более или менее похоже на угадывание грубой силы.