#python #pandas #numpy #wget
#питон #панды #тупой #wget
Вопрос:
import pandas as pd
import numpy as np
import urllib.request
import wget
df = pd.read_excel("C:/Users/ZAM/Desktop/cik_list.xlsx")
df = df.iloc[:,5:]
df['add_http'] = "https://www.sec.gov/Archives/"
df = df.astype(str)
df.columns
urls = []
length = len(df)
for i in range(length):
df['new_col'] = df['add_http'] df['SECFNAME']
urls.append(df['new_col'])
df = df.iloc[:,2:]
print(urls[i])
#OUTPUT
0 https://www.sec.gov/Archives/edgar/data/3662/0...
1 https://www.sec.gov/Archives/edgar/data/3662/0...
2 https://www.sec.gov/Archives/edgar/data/3662/0...
3 https://www.sec.gov/Archives/edgar/data/3662/0...
4 https://www.sec.gov/Archives/edgar/data/3662/0...
...
147 https://www.sec.gov/Archives/edgar/data/12239/...
148 https://www.sec.gov/Archives/edgar/data/12239/...
149 https://www.sec.gov/Archives/edgar/data/12239/...
150 https://www.sec.gov/Archives/edgar/data/12239/...
151 https://www.sec.gov/Archives/edgar/data/12239/...
Я хочу загрузить данные из приведенных выше 152 ссылок и сохранить их непосредственно в переменной / списке (не уверен), или я могу загрузить данные из этих ссылок и импортировать их в python. Пожалуйста, предоставьте решения для обоих.
ПРИМЕЧАНИЕ: Данные состоят из текстов, и я хочу провести их сентиментальный анализ, и я считаю, что хранение их в списке создаст проблему, поскольку я не смогу читать данные отдельно, поскольку список [1] будет содержать весь текст из одной ссылки.
Дайте мне знать, если есть какой-нибудь способ. Спасибо!
Комментарии:
1. Используйте beautifulsoup и получите полный текст на веб-сайте, я это то, что вы ищете для сохранения.
2. Просто чтобы убедиться, пытаетесь ли вы загрузить каждый файл и сохранить их данные отдельно в списке? Если это так, не лучше ли было бы по отдельности читать каждый файл, когда они вам нужны, поскольку одновременная загрузка всех из них, вероятно, заставит вас превысить любые ограничения памяти?
3. Спасибо, Сандип Пидугу, я посмотрю, какой красивый суп получается.
4. @Axiumin_ Да, я имел в виду то же самое, но есть 153 ссылки, и изменение кода и выполнение кода столько раз будет беспокойным. Лучше я создаю функцию и зацикливаю все данные в ней. Дайте мне знать, что вы думаете. Спасибо