Я хочу извлечь сценарии фильмов из www.imsdb.com/scripts/*.html

#html #parsing #text #save #extract

Вопрос:

Есть ссылки на сценарии на https://imsdb.com/all-scripts.html. Сами сценарии находятся на www.imsdb.com/scripts/*.html

Мне удалось распечатать www.imsdb.com/scripts/Joker.html весь текст. Но мне нужно получить чистые тексты всех сценариев. И, наконец, запишите его в один или несколько файлов Word.

Вот простой начальный код:

 url = "https://imsdb.com/scripts/Joker.html"
con = urlopen(url).read()
soup = BeautifulSoup(con,'html.parser')
texts = soup.get_text()
print(texts)  
 

Пожалуйста, какие-либо рекомендации по извлечению всех скриптов из www.imsdb.com/scripts/*.html ?

Комментарии:

1. Добавьте фрагмент к своему вопросу.

2. Извините, что вы имеете в виду, добавляя фрагмент ?