#python #python-3.x #web-scraping #beautifulsoup
#питон #python-3.x #веб-очистка #прекрасный суп
Вопрос:
Я попытался написать код, который вызывает несколько URL-адресов, а затем сохраняет весь очищенный текст в текстовом файле, но я не могу понять, где реализовать функцию цикла, не нарушая все.
вот как выглядит код прямо сейчас:
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from dhooks import Webhook, Embed
def getReadMe():
with open('urls.txt','r') as file:
return file.read()
def getHtml(readMe):
ua = UserAgent()
header = {'user-agent':ua.random}
response = requests.get(readMe,headers=header,timeout=3)
response.raise_for_status()
return response.content
readMe = getReadMe()
print(readMe)
html = getHtml(readMe)
soup = BeautifulSoup(html, 'html.parser')
text = soup.find_all(text=True)
output =''
blacklist = [
'[document]',
'noscript',
'header',
'html',
'meta',
'head',
'input',
'script',
'style'
]
for t in text:
if t.parent.name not in blacklist:
output = '{} '.format(t)
print(output)
with open("copy.txt", "w") as file:
file.write(str(output))
Ответ №1:
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from dhooks import Webhook, Embed
def getReadMe():
with open('urls.txt','r') as file:
return file.read()
def getHtml(readMe):
ua = UserAgent()
header = {'user-agent':ua.random}
response = requests.get(readMe,headers=header,timeout=3)
response.raise_for_status()
return response.content
readMe = getReadMe()
print(readMe)
for line in readMe:
html = getHtml(line)
soup = BeautifulSoup(html, 'html.parser')
text = soup.find_all(text=True)
output =''
blacklist = [
'[document]',
'noscript',
'header',
'html',
'meta',
'head',
'input',
'script',
'style'
]
for t in text:
if t.parent.name not in blacklist:
output = '{} '.format(t)
print(output)
#the option a makes u append the new data to the file
with open("copy.txt", "a") as file:
file.write(str(output))
Попробуйте это и посмотрите, работает ли это.
Комментарии:
1. Здравствуйте и большое вам спасибо за вашу помощь, но я все еще получаю некоторые ошибки, например: File «C:/Users/x/AppData/Local/Programs/Python/Python39/Web Обвязочная Петля V2.py «, строка 14, в getHtml response = requests.get(readMe,заголовки =заголовок, тайм-аут =3) «C:UsersxAppDataLocalProgramsPythonPython39libsite-packagesrequests-2.25.0-py3.9.eggrequestsmodels.py» , строка 390, в prepare_url поднять MissingSchema(ошибка) запросы.исключения. MissingSchema: недопустимый URL ‘h’: схема не указана. Возможно, вы имели в виду http://h ?
Ответ №2:
Друг друга предоставил мне ответ, который работает, по крайней мере, с английскими URL-адресами. как только я найду решение для немецких URL-адресов (прямо сейчас они ужасно вылетают ^^) Я опубликую его ttoo:
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
from dhooks import Webhook, Embed
def getHtml(url):
ua = UserAgent()
header = {'user-agent':ua.random}
response = requests.get(url,timeout=10)
response.raise_for_status()
return response.content
with open('urls.txt','r') as fd:
for i, line in enumerate(fd.readlines()):
url = line.strip()
print("scraping " url "...")
html = getHtml(url)
soup = BeautifulSoup(html, 'html.parser',)
text = soup.find_all(text=True)(text.encode('utf-8').decode('ascii', 'ignore')
output =''
blacklist = [
'[document]',
'noscript',
'header',
'html',
'meta',
'head',
'input',
'script',
'style'
]
for t in text:
if t.parent.name not in blacklist:
output = '{} '.format(t)
with open("{}.txt".format(i), "w") as out_fd:
out_fd.write(output)
`