Часто ли загрузка из архива распространения spark происходит медленно?

#apache-spark #pyspark

Вопрос:

Я пытался загрузить дистрибутив spark-hadoop с веб — сайта — https://archive.apache.org/dist/spark/spark-3.1.2/ . Часто я нахожу, что загрузки с этого сайта, как правило, медленные. Связано ли это с какой-то общей проблемой с самим сайтом?

То, что загрузка идет медленно, я проверил двумя способами —

  • В Colab я запустил команду !wget -q https://archive.apache.org/dist/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz , которая часто выполняется более 10 минут. В то время как в другое время он выполняется в течение 1 минуты.
  • С веб-сайта я попытался загрузить его, но даже тогда скорость загрузки иногда бывает очень низкой.

Ответ №1:

Это, может быть, потому, что

  • Вы загружаете несколько раз
  • Вы загружаете из не-браузера, например curl/wget
  • Ваше местоположение физически далеко от файлового сервера или сеть нестабильна.
  • или что-то еще. например, файловый сервер работает медленно

Я думаю, что у большинства публичных серверов есть своего рода «безопасная защита» для предотвращения DDoS, поэтому их «Безопасная защита» контролирует трафик загрузки в секунду. Я столкнулся с аналогичной проблемой, когда я загружал из браузера, это заняло 1 минуту, но это заняло 10 минут, когда я использую curl