#google-cloud-platform #google-bigquery
#google-cloud-platform #google-bigquery
Вопрос:
У меня есть csv-файлы на моем gcs, сохраненные в таких путях, как /data/гггг= 2020 / мм = 07 / дд = 03, /data/гггг= 2020 / мм = 08 / дд = 04 и т.д. Я пытался найти способ извлечь значения гггг, мм, дд в пути к файлу, чтобы я мог использовать его для заполнения похожих столбцов в моей таблице BigQuery..
Ответ №1:
С марта 2020 года BigQuery поддерживает загрузку данных с разделением на внешние разделы в форматах Avro, Parquet, ORC, CSV и JSON, которые хранятся в облачном хранилище с использованием макета разделения улья по умолчанию.
По умолчанию, когда такие данные загружаются из облачного хранилища, ключи разделов Hive отображаются как обычные столбцы. Поддерживаются три режима определения схемы разделов улья:
- АВТО: имена и типы ключей определяются автоматически. Могут быть обнаружены следующие типы: СТРОКА, ЦЕЛОЕ ЧИСЛО, ДАТА и ОТМЕТКА ВРЕМЕНИ.
- СТРОКИ: имена ключей автоматически выводятся с помощью типа STRING.
- ПОЛЬЗОВАТЕЛЬСКИЙ: схема ключа раздела кодируется в исходном префиксе URI.
Тем временем, при необходимости, вы можете предоставить пользовательскую схему ключей разделов, чтобы называть эти столбцы, например, годом, месяцем, днем вместо гггг, мм, дд
Подробнее о загрузке данных с разделением на внешние разделы