#apache-spark #google-bigquery #databricks #spark-bigquery-connector
#apache-spark #google-bigquery #блоки данных #spark-bigquery-connector
Вопрос:
Просто интересно, может ли кто-нибудь предложить, как мы можем выполнить / реализовать
- Операция слияния
- SCD
с помощью spark-bigquery-connector
Я знаю, что у нас могут быть режимы перезаписи и добавления, но не уверен, является ли перезапись усечением и повторной вставкой или это слияние.
Комментарии:
1. Согласно исходному коду spark-bigquery-connector , режим перезаписи будет выполнять
WRITE_TRUNCATE
, т.е. усекать существующие строки, а затем вставлять новые строки.2. есть ли в любом случае возможность выполнить слияние вместо WRITE_TRUNCATE
3. Не существует режима, который выполняет слияние напрямую, хотя вы можете объединить / объединить таблицы вручную в своем коде. Например, обратитесь к этой документации . Не могли бы вы предоставить некоторые примеры данных о том, как вы хотите реализовать SCD ie. входные данные и ожидаемый результат?