py4j.protocol.Py4JJavaError: произошла ошибка при вызове o27.partitions в Cloudera CDH 5.5.0 VM, Spark 2.4.7, JDK1.8.0_181

#apache-spark-sql #py4j

#apache-spark-sql #py4j

Вопрос:

Я учусь использовать Spark на персональном компьютере с оборудованием, способным запускать Hadoop. Вот конфигурация:

Cloudera CDH 5.5.0 с Cloudera Quickstart, Spark 2.4.7, JDK1.8.0_181, Hadoop 2.6.0, Python 3.6.9.

При запуске скрипта Python (скопированного из видео Udemy на YouTube) я столкнулся с несколькими ошибками и исправил их, но не смог найти никакого решения для следующей:

java.io.IOException: неполный URI HDFS, нет хоста: hdfs: /user/cloudera / Spark / ml — 100 k / u.data

Обратная трассировка (последний последний вызов):

 File "/home/cloudera/Spark/LowestRatedMovieDataFrame.py", line 75, in < module >
  movieDataset = spark.createDataFrame(movies)

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 746, in createDataFrame

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 390, in _createFromRDD

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 361, in _inferSchema

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/rdd.py", line 1378, in first

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/rdd.py", line 1327, in take

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/rdd.py", line 2517, in getNumPartitions

File "/usr/local/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__

File "/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 63, in deco

File "/usr/local/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value

py4j.protocol.Py4JJavaError: An error occurred
while calling o27.partitions.: java.io.IOException: Incomplete HDFS URI, no host: hdfs: /user/cloudera / Spark / ml - 100 k / u.data