Spark не может загрузить файл csv

#python-3.x #apache-spark #pyspark #bigdata

#python-3.x #apache-spark #pyspark #bigdata

Вопрос:

 spark = SparkSession.builder 
.master("spark://ip:7077") 
.appName("usres mobile location information analysis") 
.config("spark.submit.deployMode", "client") 
.config("spark.executor.memory","2g") 
.config('spark.executor.cores', "2") 
.config("spark.executor.extraClassPath","/opt/anaconda3/jars/ojdbc6.jar") 
.config("spark.executor.pyspark.memory","2g") 
.config("spark.driver.maxResultSize", "2g") 
.config("spark.driver.memory", "2g") 
.config("spark.driver.extraClassPath","/opt/anaconda3/jars/ojdbc6.jar") 
.enableHiveSupport() 
.getOrCreate()
  

Я пытаюсь прочитать CSV-файл, расположенный на моем локальном компьютере в папке report.Но он расположен не в нужном месте. Есть ли какие-либо проблемы с моим кодом. Я использую следующую строку кода для чтения csv-файла.

 info_df = spark.read
.format("csv")
.option("header","true")
.option("mode", "PERMISSIVE")
.load("report/info.csv")
  

И я получаю следующую ошибку. Это показывает, что spark не может найти файлы.Каково вероятное решение?

  Py4JJavaError: An error occurred while calling o580.load.
    : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 7.0 failed 4 times, most recent failure: Lost task 0.3 in stage 7.0 (TID 31, ip , executor 4): java.io.FileNotFoundException: File file:/C:/Users/taimur.islam/Desktop/banglalink/Data Science/High Value Prediction/report/info.csv does not exist
    It is possible the underlying files have been updated. You can explicitly invalidate the cache in Spark by running 'REFRESH TABLE tableName' command in SQL or by recreating the Dataset/DataFrame involved.
  

Комментарии:

1. отчет /info.csv должен существовать в каждом исполняющем узле.

2. мой главный узел — Linux, а локальный компьютер — Windows. Как я могу настроить тот же путь?? каково будет расположение файла в главном узле?

3. Вам следует либо использовать распределенную файловую систему (такую как gcp blob, aws s3), либо однородный кластер с копией входных данных на каждом узле по одному и тому же пути.

4. Или вы можете запустить свой клиент на виртуальной машине, которая является linux.

5. можете ли вы дать мне какую-нибудь ссылку о реализации однородной кластерной системы