#amazon-web-services #pyspark #pyspark-sql #amazon-emr
#amazon-веб-сервисы #pyspark #pyspark-sql #amazon-emr
Вопрос:
В настоящее время я пытаюсь проанализировать некоторые данные с помощью ноутбука с использованием EMR. Проблема, с которой я сталкиваюсь, заключается в том, что я не могу понять, как при использовании ядра PySpark включать определенные артефакты. В частности, я пытаюсь включить org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0, что я обычно делаю в командной строке при запуске среды PySpark, просто используя аргумент —packages . Может быть, мне нужно включить действие начальной загрузки? Я не совсем уверен, что бы я туда поместил. Любая помощь будет очень признательна.
Ответ №1:
Я спросил на reddit, и кто-то из команды EMR ответил:
Вы можете использовать %%configure
блок в качестве первой ячейки в записной книжке, чтобы указать дополнительные пакеты. В вашем случае это будет выглядеть так:
%%configure
{ "conf": {"spark.jars.packages": "org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0" }}
Вот скриншот примера ноутбука, который загружает spark-avro.
(Отказ от ответственности: сотрудник AWS в команде EMR 👋)
Комментарии:
1. Привет, Виктор! Спасибо за ваш ответ, он отлично работает с универсальными библиотеками. Однако у меня возникают некоторые проблемы при использовании этого, например, с библиотекой под названием: Clustering4ever [ссылка]github.com/Clustering4Ever/Clustering4Ever Работает ли ваш ответ и с библиотеками этого типа?? Извините, если вопрос глупый, но я новичок в этом и бьюсь головой о стену!