#apache-spark #apache-spark-sql #orc
#apache-spark #apache-spark-sql #orc
Вопрос:
Почему spark.sql.orc.filterPushdown
значение по умолчанию равно false в spark?
Установка spark.sql.orc.filterPushdown
значения true
влечет за собой некоторые издержки производительности или есть некоторые ограничения в функциональности чтения orc в spark?
Ответ №1:
Возможно, это связано с тем, что интеграция spark со старым форматом orc была не очень хорошей и в некоторых случаях вызывала проблемы. Большинство этих проблем, похоже, исправлены в новом формате ORC (имеет лучшую векторизацию) и spark 2.
https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
https://issues.apache.org/jira/browse/SPARK-14962
https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html