#apache-spark #pyspark
Вопрос:
Я пытался загрузить дистрибутив spark-hadoop с веб — сайта — https://archive.apache.org/dist/spark/spark-3.1.2/
. Часто я нахожу, что загрузки с этого сайта, как правило, медленные. Связано ли это с какой-то общей проблемой с самим сайтом?
То, что загрузка идет медленно, я проверил двумя способами —
- В Colab я запустил команду
!wget -q https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
, которая часто выполняется более 10 минут. В то время как в другое время он выполняется в течение 1 минуты. - С веб-сайта я попытался загрузить его, но даже тогда скорость загрузки иногда бывает очень низкой.
Ответ №1:
Это, может быть, потому, что
- Вы загружаете несколько раз
- Вы загружаете из не-браузера, например curl/wget
- Ваше местоположение физически далеко от файлового сервера или сеть нестабильна.
- или что-то еще. например, файловый сервер работает медленно
Я думаю, что у большинства публичных серверов есть своего рода «безопасная защита» для предотвращения DDoS, поэтому их «Безопасная защита» контролирует трафик загрузки в секунду. Я столкнулся с аналогичной проблемой, когда я загружал из браузера, это заняло 1 минуту, но это заняло 10 минут, когда я использую curl