#python #csv #beautifulsoup
#python #csv #beautifulsoup
Вопрос:
У меня есть список URL-адресов в формате csv, которые мне нужно очистить и упорядочить в файл csv. Я хочу, чтобы данные из каждого URL были строкой в файле csv. Мне нужно очистить около 19000 URL-адресов, но я пытаюсь разобраться в этом, используя только несколько. Я могу очищать файлы и просматривать их в терминале, но когда я экспортирую их в файл csv, отображается только последний файл.
URL-адреса отображаются в файле csv как:
http://www.gpo.gov/fdsys/pkg/CREC-2005-01-26/html/CREC-2005-01-26-pt1-PgH199-6.htm
http://www.gpo.gov/fdsys/pkg/CREC-2005-01-26/html/CREC-2005-01-26-pt1-PgH200-3.htm
У меня такое чувство, что я делаю что-то не так с моим циклом, но, похоже, не могу понять, где. Любая помощь будет высоко оценена!
Вот с чем я работаю до сих пор:
import urllib
from bs4 import BeautifulSoup
import csv
import re
import pandas as pd
import requests
with open('/Users/test/Dropbox/one_minute_json/Extracting Data/a_2005_test.csv') as f:
reader = csv.reader(f)
for row in reader:
html = urllib.urlopen(row[0])
r = requests.get(html)
soup = BeautifulSoup(r, "lxml")
for item in soup:
volume = int(re.findall(r"Volume (d{1,3})", soup.title.text)[0])
print(volume)
issue = int(re.findall(r"Issue (d{1,3})", soup.title.text)[0])
print(issue)
date = re.findall(r"((.*?))", soup.title.text)[0]
print(date)
page = re.findall(r"[Page (.*?)]", soup.pre.text.split('n')[3])[0]
print(page)
title = soup.pre.text.split('nn ')[1].strip()
print(title)
name = soup.pre.text.split('n ')[2]
print(name)
text = soup.pre.text.split(')')[2]
print(text)
df = pd.DataFrame()
df['volume'] = [volume]
df['issue'] = [issue]
df['date'] = [date]
df['page'] = [page]
df['title'] = [title]
df['name'] = [name]
df['text'] = [text]
df.to_csv('test_scrape.csv', index=False)
Спасибо!
Ответ №1:
Ваш отступ полностью отключен, попробуйте следующее:
from bs4 import BeautifulSoup
import csv
import re
import pandas as pd
import requests
with open('/Users/test/Dropbox/one_minute_json/Extracting Data/a_2005_test.csv') as f:
reader = csv.reader(f)
index = 0
df = pd.DataFrame(columns=["Volume", "issue", "date", "page", "title", "name", "text"])
for row in reader:
r = requests.get(row[0])
soup = BeautifulSoup(r.text, "lxml")
for item in soup:
volume = int(re.findall(r"Volume (d{1,3})", soup.title.text)[0])
issue = int(re.findall(r"Issue (d{1,3})", soup.title.text)[0])
date = re.findall(r"((.*?))", soup.title.text)[0]
page = re.findall(r"[Page (.*?)]", soup.pre.text.split('n')[3])[0]
title = soup.pre.text.split('nn ')[1].strip()
name = soup.pre.text.split('n ')[2]
text = soup.pre.text.split(')')[2]
row = [volume, issue, date, page, title, name, text]
df.loc[index] = row
index = 1
df.to_csv('test_scrape.csv', index=False)