#scala #apache-spark #databricks
#scala #apache-spark #блоки данных
Вопрос:
Я новичок здесь, чтобы изучать Spark и Scala, используя ноутбук и кластер в Databricks.com , вот мой очень простой код для загрузки файла:
import sys.process._
val localpath="file:/tmp/myfile.json"
dbutils.fs.mkdirs("dbfs:/datasets/")
dbutils.fs.cp(localpath, "dbfs:/datasets/")
но я получил ошибку, подобную этой:
исключение java.io.FileNotFoundException: файл file:/tmp/myfile.json не существует.
в org.apache.hadoop.fs.RawLocalFileSystem.getFileStatus(RawLocalFileSystem.java:402)
в org.apache.hadoop.fs.FilterFileSystem.getFileStatus(FilterFileSystem.java:255)
в com.databricks.backend.daemon.dbutils.FSUtils$.cp(DBUtilsCore.scala:82)
в com.databricks.dbutils_v1.impl.DbfsUtilsImpl.cp(DbfsUtilsImpl.scala:40)
Я использую Mac и убедился, что файл существует по этому абсолютному пути, это ошибка spark? Спасибо!
Комментарии:
1. Databricks.com не запускается на вашем хосте, поэтому я не уверен, что он может получить доступ к вашим локальным файлам. См . forums.databricks.com/questions/828 /…
2. Да, вы правы, это должно быть в dbfs Spark, но не на моем хосте
Ответ №1:
Линия:
val localpath="file:/tmp/myfile.json"
должно быть:
val localpath=»file://tmp/myfile.json»
В основном все URI имеют формат://path см. RFC-3986