#html #parsing #text #save #extract
Вопрос:
Есть ссылки на сценарии на https://imsdb.com/all-scripts.html. Сами сценарии находятся на www.imsdb.com/scripts/*.html
Мне удалось распечатать www.imsdb.com/scripts/Joker.html весь текст. Но мне нужно получить чистые тексты всех сценариев. И, наконец, запишите его в один или несколько файлов Word.
Вот простой начальный код:
url = "https://imsdb.com/scripts/Joker.html"
con = urlopen(url).read()
soup = BeautifulSoup(con,'html.parser')
texts = soup.get_text()
print(texts)
Пожалуйста, какие-либо рекомендации по извлечению всех скриптов из www.imsdb.com/scripts/*.html ?
Комментарии:
1. Добавьте фрагмент к своему вопросу.
2. Извините, что вы имеете в виду, добавляя фрагмент ?