Ошибка FileNotFoundError: [Ошибка WinError 2] Система не может найти файл, указанный при запуске pyspark в cmd / Pycharm

#python #apache-spark #pyspark

#python #apache-spark #pyspark

Вопрос:

Я пытаюсь запустить файл python в pycharm с приведенным ниже кодом. Я сталкиваюсь с той же проблемой, когда я указываю pyspark в cmd, а также pycharm, может кто-нибудь, пожалуйста, помочь мне с этим. Заранее спасибо.

Код :

 from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, DateType, DecimalType, IntegerType
spark = SparkSession.builder.master("local[*]").appName("ETL").getOrCreate()
spark.sparkContext.setLogLevel("WARN")
source_data_file = "C:Python_pgmsapache-spark-etl-pipeline-example-masterapache-spark-etl-pipeline-example-masterdata20160104*"
print("Fetching")
 

Столкнувшись с проблемой ниже :

 Traceback (most recent call last):
  File "C:/Python_pgms/apache-spark-etl-pipeline-example-master/apache-spark-etl-pipeline-example-master/src/etl.py", line 5, in <module>
    spark = SparkSession.builder.master("local[*]").appName("ETL").getOrCreate()
  File "C:Sparkspark-3.0.1-bin-hadoop2.7pythonlibpyspark.zippysparksqlsession.py", line 186, in getOrCreate
  File "C:Sparkspark-3.0.1-bin-hadoop2.7pythonlibpyspark.zippysparkcontext.py", line 376, in getOrCreate
  File "C:Sparkspark-3.0.1-bin-hadoop2.7pythonlibpyspark.zippysparkcontext.py", line 133, in __init__
  File "C:Sparkspark-3.0.1-bin-hadoop2.7pythonlibpyspark.zippysparkcontext.py", line 325, in _ensure_initialized
  File "C:Sparkspark-3.0.1-bin-hadoop2.7pythonlibpyspark.zippysparkjava_gateway.py", line 98, in launch_gateway
  File "C:UserscompAppDataLocalProgramsPythonPython36libsubprocess.py", line 709, in __init__
    restore_signals, start_new_session)
  File "C:UserscompAppDataLocalProgramsPythonPython36libsubprocess.py", line 997, in _execute_child
    startupinfo)
FileNotFoundError: [WinError 2] The system cannot find the file specified

Process finished with exit code 1
 

Комментарии:

1. Похоже, он не может найти исполняемый файл Spark. Проверьте свой PATH etc.

2. Спасибо @tripleee. Я могу запустить spark scala, используя те же конфигурации. Не уверен, почему это не запускается для python. Пожалуйста, дайте мне знать, если мне нужно что-то изменить… Путь =C:Program ФайлыPython38Скрипты;C:Program ФайлыPython38;C:Program Файлы (x86)Общие файлы Oracle Javajavapath;C:Windowssystem32 ;C:Windows ;C:WindowsSystem32Wbem ;C:Program FilesPostgreSQL10bin;C:Program FilesJavajdk1.8.0_271bin;C:Sparkspark-3.0.1-bin-hadoop2.7bin;%HADOOP_HOME%bin;C:WindowsSystem32WindowsPowerShellv1.0 ;F:Scalabin

Ответ №1:

pycharm-> выполнить -> редактировать конфигурации -> переменные среды

добавьте PYTHONPATH и SPARK_HOME в соответствии с вашим путем