#apache-spark #hadoop #hive #apache-spark-sql
#apache-spark #hadoop #улей #apache-spark-sql
Вопрос:
Я довольно новичок во всей области hive, hadoop, spark
Что я сделал, используя этот замечательный контейнер docker https://github.com/panovvv/bigdata-docker-compose для взаимодействия с hive, hadoop, spark, ….
Теперь я импортировал CSV в виде таблицы через консоль hive и через beeline, пока все работает нормально
Простой запрос select * тоже работает
Но как только я использую такие ключевые слова, как Order By, Sort by, Count(*), я получаю семантическое исключение
Есть идеи
hive> select * from sales_records limit 10;
OK
Australia and Oceania Tuvalu Baby Food Offline H 5/28/2010 669165933 6/27/2010 9925 255.28 159.42 2533654.00 1582243.50
select * from sales_records sort by region limit 10;
Query ID = root_20201124135744_7afe7974-90ec-4523-b946-9f6e16f9be41
Total jobs = 1
Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session edb4ef00-3af8-4871-ba5a-a4c31436f417)'
FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session edb4ef00-3af8-4871-ba5a-a4c31436f417
hive> select count(*) from sales_records;
Query ID = root_20201124135821_36559999-af26-4daf-82ae-09d41b12b408
Total jobs = 1
Launching Job 1 out of 1
Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 9f720f53-6492-4ac6-9ed6-3977abaf8a73)'
FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session 9f720f53-6492-4ac6-9ed6-3977abaf8a73
Спасибо за вашу помощь!
Стефан
Комментарии:
1.
select *
не запускает задание Spark, а передает данные напрямую из hdfs. Но, как вы можете видеть из журналов консоли, сортировка по, порядок по, количество (*) и т. Д. запускает задание, и оно завершается с ошибкой. Вы можете включить журналы отладки на клиенте byhive --hiveconf hive.root.logger=DEBUG,console
и, возможно, найти более полезные журналы о причинах сбоя.2. я этого не знал. хорошая подсказка. java.lang. Ошибка NoClassDefFoundError: org/apache/spark/SparkConf в org.apache.hadoop.hive.ql.exec.spark. HiveSparkClientFactory.generateSparkConf(HiveSparkClientFactory.java:140) я скопировал все *.jars из spark / jars в hive / libs, похоже, теперь работает, но понятия не имею, зачем это нужно, к сожалению, он работает только внутри оболочки в сеансе улья