Загрузка по нескольким ссылкам в python и сохранение в нескольких списках

#python #pandas #numpy #wget

#питон #панды #тупой #wget

Вопрос:

 import pandas as pd

import numpy as np

import urllib.request

import wget

df = pd.read_excel("C:/Users/ZAM/Desktop/cik_list.xlsx")

df = df.iloc[:,5:]

df['add_http'] = "https://www.sec.gov/Archives/"

df = df.astype(str)

df.columns

urls = []

length = len(df)

for i in range(length):

    df['new_col'] = df['add_http']   df['SECFNAME'] 

    urls.append(df['new_col'])

df = df.iloc[:,2:]

print(urls[i])
 
 #OUTPUT

0      https://www.sec.gov/Archives/edgar/data/3662/0...

1      https://www.sec.gov/Archives/edgar/data/3662/0...
2      https://www.sec.gov/Archives/edgar/data/3662/0...
3      https://www.sec.gov/Archives/edgar/data/3662/0...
4      https://www.sec.gov/Archives/edgar/data/3662/0...
                             ...                        
147    https://www.sec.gov/Archives/edgar/data/12239/...
148    https://www.sec.gov/Archives/edgar/data/12239/...
149    https://www.sec.gov/Archives/edgar/data/12239/...
150    https://www.sec.gov/Archives/edgar/data/12239/...
151    https://www.sec.gov/Archives/edgar/data/12239/...
 

Я хочу загрузить данные из приведенных выше 152 ссылок и сохранить их непосредственно в переменной / списке (не уверен), или я могу загрузить данные из этих ссылок и импортировать их в python. Пожалуйста, предоставьте решения для обоих.

ПРИМЕЧАНИЕ: Данные состоят из текстов, и я хочу провести их сентиментальный анализ, и я считаю, что хранение их в списке создаст проблему, поскольку я не смогу читать данные отдельно, поскольку список [1] будет содержать весь текст из одной ссылки.

Дайте мне знать, если есть какой-нибудь способ. Спасибо!

Комментарии:

1. Используйте beautifulsoup и получите полный текст на веб-сайте, я это то, что вы ищете для сохранения.

2. Просто чтобы убедиться, пытаетесь ли вы загрузить каждый файл и сохранить их данные отдельно в списке? Если это так, не лучше ли было бы по отдельности читать каждый файл, когда они вам нужны, поскольку одновременная загрузка всех из них, вероятно, заставит вас превысить любые ограничения памяти?

3. Спасибо, Сандип Пидугу, я посмотрю, какой красивый суп получается.

4. @Axiumin_ Да, я имел в виду то же самое, но есть 153 ссылки, и изменение кода и выполнение кода столько раз будет беспокойным. Лучше я создаю функцию и зацикливаю все данные в ней. Дайте мне знать, что вы думаете. Спасибо