Я хочу извлечь сценарии фильмов из www.imsdb.com/scripts/*.html

#html #parsing #text #save #extract

Вопрос:

Есть ссылки на сценарии на https://imsdb.com/all-scripts.html. Сами сценарии находятся на www.imsdb.com/scripts/*.html

Мне удалось распечатать www.imsdb.com/scripts/Joker.html весь текст. Но мне нужно получить чистые тексты всех сценариев. И, наконец, запишите его в один или несколько файлов Word.

Вот простой начальный код:

 url = "https://imsdb.com/scripts/Joker.html"
con = urlopen(url).read()
soup = BeautifulSoup(con,'html.parser')
texts = soup.get_text()
print(texts)

Пожалуйста, какие-либо рекомендации по извлечению всех скриптов из www.imsdb.com/scripts/*.html ?

Вопрос:

Комментарии:

Вам также может понравиться

флэш-накопитель для аутентификации пользователя с помощью asp.net

Текст подстановки в выпадающем списке MVC 5

Ошибка отображения Tiff-изображения в DocumentViewer (WPF, C #)