Операции слияния с помощью spark-bigquery-connector

#apache-spark #google-bigquery #databricks #spark-bigquery-connector

#apache-spark #google-bigquery #блоки данных #spark-bigquery-connector

Вопрос:

Просто интересно, может ли кто-нибудь предложить, как мы можем выполнить / реализовать

  1. Операция слияния
  2. SCD

с помощью spark-bigquery-connector

Я знаю, что у нас могут быть режимы перезаписи и добавления, но не уверен, является ли перезапись усечением и повторной вставкой или это слияние.

Комментарии:

1. Согласно исходному коду spark-bigquery-connector , режим перезаписи будет выполнять WRITE_TRUNCATE , т.е. усекать существующие строки, а затем вставлять новые строки.

2. есть ли в любом случае возможность выполнить слияние вместо WRITE_TRUNCATE

3. Не существует режима, который выполняет слияние напрямую, хотя вы можете объединить / объединить таблицы вручную в своем коде. Например, обратитесь к этой документации . Не могли бы вы предоставить некоторые примеры данных о том, как вы хотите реализовать SCD ie. входные данные и ожидаемый результат?