Использование набора данных с параметрами для BigQuery при подготовке облачных данных?

#google-bigquery #google-cloud-dataprep

#google-bigquery #google-cloud-dataprep

Вопрос:

У меня есть несколько наборов данных BigQuery с ежедневно создаваемыми таблицами, такими как

  • apples_201904010
  • apples_201904009

и т.д.

Я хотел бы настроить задание подготовки облачных данных по расписанию для обработки этих таблиц каждую ночь, поэтому использование опции dataset с параметрами действительно привлекательно. Когда я нажимаю, чтобы заменить набор данных BigQuery на набор данных с параметрами, я получаю следующее приглашение с протоколом BigQuery:

Пример пути к BigQuery

Есть ли способ использовать эту настройку для динамического извлечения нужной таблицы каждый день, или мне нужно использовать другой путь, например, ежедневный экспорт таблиц в GCS, а затем использование наборов данных с параметрами там?

Ответ №1:

Чтобы запланировать задания облачной подготовки данных, обрабатывающие таблицы BigQuery, по дате, у вас есть следующие параметры:

  1. Используйте Google Cloud Composer для создания DAG, который планирует экспорт BigQuery в облачное хранилище, а затем использует эти экспортированные файлы с параметрами Dataprep, как вы упомянули.
  2. [Рекомендуется] Вообще пропустите использование параметров Dataprep и просто создайте настраиваемое представление BigQuery в качестве Dataprep dataset.

Затем вы можете запланировать выполнение задания Dataprep в любом варианте для ежедневного выполнения.

Что касается варианта № 1, вы можете установить диапазон дат набора данных для подготовки данных с параметрами, чтобы они принимали файлы только в пределах указанного диапазона дат.