Почему spark.sql.orc.filterPushdown по умолчанию равен false в spark?

#apache-spark #apache-spark-sql #orc

#apache-spark #apache-spark-sql #orc

Вопрос:

Почему spark.sql.orc.filterPushdown значение по умолчанию равно false в spark?

Установка spark.sql.orc.filterPushdown значения true влечет за собой некоторые издержки производительности или есть некоторые ограничения в функциональности чтения orc в spark?

Ответ №1:

Возможно, это связано с тем, что интеграция spark со старым форматом orc была не очень хорошей и в некоторых случаях вызывала проблемы. Большинство этих проблем, похоже, исправлены в новом формате ORC (имеет лучшую векторизацию) и spark 2.

https://community.hortonworks.com/articles/148917/orc-improvements-for-apache-spark-22.html
https://issues.apache.org/jira/browse/SPARK-14962
https://community.hortonworks.com/questions/222760/spark-sql-limit-clause-performance-issues.html