#apache-spark-sql #py4j
#apache-spark-sql #py4j
Вопрос:
Я учусь использовать Spark на персональном компьютере с оборудованием, способным запускать Hadoop. Вот конфигурация:
Cloudera CDH 5.5.0 с Cloudera Quickstart, Spark 2.4.7, JDK1.8.0_181, Hadoop 2.6.0, Python 3.6.9.
При запуске скрипта Python (скопированного из видео Udemy на YouTube) я столкнулся с несколькими ошибками и исправил их, но не смог найти никакого решения для следующей:
java.io.IOException: неполный URI HDFS, нет хоста: hdfs: /user/cloudera / Spark / ml — 100 k / u.data
Обратная трассировка (последний последний вызов):
File "/home/cloudera/Spark/LowestRatedMovieDataFrame.py", line 75, in < module >
movieDataset = spark.createDataFrame(movies)
File "/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 746, in createDataFrame
File "/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 390, in _createFromRDD
File "/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/session.py", line 361, in _inferSchema
File "/usr/local/spark/python/lib/pyspark.zip/pyspark/rdd.py", line 1378, in first
File "/usr/local/spark/python/lib/pyspark.zip/pyspark/rdd.py", line 1327, in take
File "/usr/local/spark/python/lib/pyspark.zip/pyspark/rdd.py", line 2517, in getNumPartitions
File "/usr/local/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
File "/usr/local/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 63, in deco
File "/usr/local/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
py4j.protocol.Py4JJavaError: An error occurred
while calling o27.partitions.: java.io.IOException: Incomplete HDFS URI, no host: hdfs: /user/cloudera / Spark / ml - 100 k / u.data