#apache-spark #visual-studio-code #pyspark
#apache-spark #visual-studio-code #pyspark
Вопрос:
Недавно я установил vscode и хотел разработать приложение PySpark. Кто-нибудь может помочь мне добавить существующие банки Pysprak в визуальный код??? Я уже установил Spark в Windows и хочу использовать эти банки (не хочу снова устанавливать Pyspark с помощью PIP). Заранее спасибо
Ответ №1:
Вы не добавляете JARS в VSCode, вы бы определили аргументы отправки Spark в коде Python следующим образом
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages ...'
# your spark code
Вы также можете установить findspark
пакет, который определит местонахождение вашего каталога установки Spark
Комментарии:
1. ОК.. Спасибо… Это можно использовать как обходной путь.. Но разве это не выглядит немного сложнее, чем стандартный производственный код?? Я видел в некоторых местах, что люди добавляют несколько параметров в файл setting.json для предоставления jars. Разве мы не можем сделать то же самое для Pyspark?? Я пытался, но не смог добиться успеха. может быть, я чего-то не хватает. code.visualstudio.com/docs/java /…
2. могу ли я добавить folows в файл setting.json vscode.??. «java.project.referencedlibrary»: [ «D:\Installation\BigData\spark-2.4.6-bin-hadoop2.7\jars «, «D:\Installation\BigData\spark-2.4.6-bin-hadoop2.7\python\lib *.банки» ] }
3. Это нормально, если я добавлю так? из pyspark.sql импортируйте SparkSession импортируйте os os.environ[‘PYSPARK_SUBMIT_ARGS’] = ‘—packages «D:\Installation\BigData\spark-2.4.6-bin-hadoop2.7\jars , «D:\Installation\BigData\spark-2.4.6-bin-hadoop2.7\python\lib * .банки»‘
4. Вы не должны добавлять каждую банку, нет. Когда вы запускаете задание Spark, оно собирает все банки в каталоге установки Spark. Аргумент packages предназначен для использования во внешних библиотеках, и вы используете проект Python, а не Java, поэтому я не уверен, как файл Vscode json поможет / будет работать с этим
5. Привет . я попробовал ваше предложение . Но, похоже, мое приложение Spark все еще не может получить банки. Итак, он говорит: «Модуль Pyspark не найден» из строки «из pyspark . . . . . импортировать SparkSession «. Можете ли вы подсказать, что я делаю не так??