Относительный путь в абсолютном URI в MS Databricks Искрится при чтении csv-файла

#python #pandas #pyspark #databricks

Вопрос:

Я новичок в Pyspark и пытаюсь использовать базу данных из Databricks.

Я пытался прочитать файл csv с моего локального компьютера, используя этот синтаксис:

 df = spark.read.format("csv").option("header", True).load("C:\Users\***\Desktop\MasterFile_v0.csv")
 

и получил это сообщение об ошибке: java.net.URISyntaxException: Relative path in absolute URI: C:Users****.10DesktopMasterFile_v0.csv

Просто интересно, как это исправить.

Кроме того, я использовал Pandas для чтения csv, но мне нужно установить xlrd, и я использовал %pip install xlrd внутренние базы данных, но, похоже, у меня нет для этого учетных данных.

Если у меня есть какие-либо предложения по чтению локальных файлов, это было бы здорово. Спасибо! C

Ответ №1:

Вы не можете получить доступ к файлу на вашем компьютере из хранилищ данных — он работает в облаке, и кластер никоим образом не может иметь доступ к вашему локальному диску.

Вам нужно загрузить файл в файловую систему Databricks. Существует несколько способов сделать это (перечислены в документах):

  1. использование пользовательского интерфейса загрузки данных
  2. Использование интерфейса командной строки Databricks (может не работать с community edition)
  3. Поместите файл в облачное хранилище (Azure data lake, AWS S3 и т. Д.) И Получите доступ к нему из Spark