#google-bigquery #google-cloud-dataprep
#google-bigquery #google-cloud-dataprep
Вопрос:
У меня есть несколько наборов данных BigQuery с ежедневно создаваемыми таблицами, такими как
- apples_201904010
- apples_201904009
и т.д.
Я хотел бы настроить задание подготовки облачных данных по расписанию для обработки этих таблиц каждую ночь, поэтому использование опции dataset с параметрами действительно привлекательно. Когда я нажимаю, чтобы заменить набор данных BigQuery на набор данных с параметрами, я получаю следующее приглашение с протоколом BigQuery:
Есть ли способ использовать эту настройку для динамического извлечения нужной таблицы каждый день, или мне нужно использовать другой путь, например, ежедневный экспорт таблиц в GCS, а затем использование наборов данных с параметрами там?
Ответ №1:
Чтобы запланировать задания облачной подготовки данных, обрабатывающие таблицы BigQuery, по дате, у вас есть следующие параметры:
- Используйте Google Cloud Composer для создания DAG, который планирует экспорт BigQuery в облачное хранилище, а затем использует эти экспортированные файлы с параметрами Dataprep, как вы упомянули.
- [Рекомендуется] Вообще пропустите использование параметров Dataprep и просто создайте настраиваемое представление BigQuery в качестве Dataprep dataset.
Затем вы можете запланировать выполнение задания Dataprep в любом варианте для ежедневного выполнения.
Что касается варианта № 1, вы можете установить диапазон дат набора данных для подготовки данных с параметрами, чтобы они принимали файлы только в пределах указанного диапазона дат.