#apache-spark #pyspark #hive
#apache-spark #pyspark #улей
Вопрос:
Я использую hadoop 2.10.x hive 3.1.x spark 3.0.1 и пытаюсь загрузить файл журнала в hive с помощью pyspark. Я следовал коду из документа spark для подключения к hive.
warehouse_location = abspath('spark-warehouse')
spark = SparkSession
.builder
.appName("Python Spark SQL Hive integration example")
.enableHiveSupport()
.getOrCreate()
но он всегда вызывает pyspark.sql.utils.Исключение IllegalArgumentException: <ошибка исключения str()>.
Traceback (most recent call last):
File "log_extra.py", line 16, in <module>
.appName("Python Spark SQL Hive integration example")
File "/usr/local/python37/lib/python3.7/site-packages/pyspark/sql/session.py", line 191, in getOrCreate
session._jsparkSession.sessionState().conf().setConfString(key, value)
File "/usr/local/python37/lib/python3.7/site-packages/py4j/java_gateway.py", line 1305, in __call__
answer, self.gateway_client, self.target_id, self.name)
File "/usr/local/python37/lib/python3.7/site-packages/pyspark/sql/utils.py", line 134, in deco
raise_from(converted)
File "<string>", line 3, in raise_from
pyspark.sql.utils.IllegalArgumentException: <exception str() failed>
Если я не добавлю config enableHiveSupport
, этот скрипт python может запускаться, но может подключаться только к встроенному улью.
Я ввел hive-site.xml
spark/conf.
Теперь я не знаю, как подключиться к моему улью с помощью spark.