Запросы улья — количество (*), порядок по, сортировка по не работает

#apache-spark #hadoop #hive #apache-spark-sql

#apache-spark #hadoop #улей #apache-spark-sql

Вопрос:

Я довольно новичок во всей области hive, hadoop, spark

Что я сделал, используя этот замечательный контейнер docker https://github.com/panovvv/bigdata-docker-compose для взаимодействия с hive, hadoop, spark, ….

Теперь я импортировал CSV в виде таблицы через консоль hive и через beeline, пока все работает нормально

Простой запрос select * тоже работает

Но как только я использую такие ключевые слова, как Order By, Sort by, Count(*), я получаю семантическое исключение

Есть идеи

 hive> select * from sales_records limit 10;
OK
Australia and Oceania   Tuvalu  Baby Food       Offline H       5/28/2010       669165933       6/27/2010       9925   255.28   159.42  2533654.00      1582243.50

select * from sales_records sort by region limit 10;
Query ID = root_20201124135744_7afe7974-90ec-4523-b946-9f6e16f9be41
Total jobs = 1
Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session edb4ef00-3af8-4871-ba5a-a4c31436f417)'
FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session edb4ef00-3af8-4871-ba5a-a4c31436f417

hive> select count(*) from sales_records;
Query ID = root_20201124135821_36559999-af26-4daf-82ae-09d41b12b408
Total jobs = 1
Launching Job 1 out of 1
Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create Spark client for Spark session 9f720f53-6492-4ac6-9ed6-3977abaf8a73)'
FAILED: Execution Error, return code 30041 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Failed to create Spark client for Spark session 9f720f53-6492-4ac6-9ed6-3977abaf8a73
 

Спасибо за вашу помощь!
Стефан

Комментарии:

1. select * не запускает задание Spark, а передает данные напрямую из hdfs. Но, как вы можете видеть из журналов консоли, сортировка по, порядок по, количество (*) и т. Д. запускает задание, и оно завершается с ошибкой. Вы можете включить журналы отладки на клиенте by hive --hiveconf hive.root.logger=DEBUG,console и, возможно, найти более полезные журналы о причинах сбоя.

2. я этого не знал. хорошая подсказка. java.lang. Ошибка NoClassDefFoundError: org/apache/spark/SparkConf в org.apache.hadoop.hive.ql.exec.spark. HiveSparkClientFactory.generateSparkConf(HiveSparkClientFactory.java:140) я скопировал все *.jars из spark / jars в hive / libs, похоже, теперь работает, но понятия не имею, зачем это нужно, к сожалению, он работает только внутри оболочки в сеансе улья