#python #pandas #pyspark #databricks
Вопрос:
Я новичок в Pyspark и пытаюсь использовать базу данных из Databricks.
Я пытался прочитать файл csv с моего локального компьютера, используя этот синтаксис:
df = spark.read.format("csv").option("header", True).load("C:\Users\***\Desktop\MasterFile_v0.csv")
и получил это сообщение об ошибке: java.net.URISyntaxException: Relative path in absolute URI: C:Users****.10DesktopMasterFile_v0.csv
Просто интересно, как это исправить.
Кроме того, я использовал Pandas для чтения csv, но мне нужно установить xlrd, и я использовал %pip install xlrd
внутренние базы данных, но, похоже, у меня нет для этого учетных данных.
Если у меня есть какие-либо предложения по чтению локальных файлов, это было бы здорово. Спасибо! C
Ответ №1:
Вы не можете получить доступ к файлу на вашем компьютере из хранилищ данных — он работает в облаке, и кластер никоим образом не может иметь доступ к вашему локальному диску.
Вам нужно загрузить файл в файловую систему Databricks. Существует несколько способов сделать это (перечислены в документах):
- использование пользовательского интерфейса загрузки данных
- Использование интерфейса командной строки Databricks (может не работать с community edition)
- Поместите файл в облачное хранилище (Azure data lake, AWS S3 и т. Д.) И Получите доступ к нему из Spark