Каталог данных не будет автоматически считывать технические метаданные из файлов в корзине (GCS)

#google-data-catalog

Вопрос:

В каталоге данных Google я попытался создать новую группу записей, затем создал запись набора файлов, в которой настроен шаблон корзины и файла. Я специально не определил схему в наборе файлов, так как хочу, чтобы каталог данных автоматически находил технические метаданные внутри/из файлов. Все настраивается с помощью пользовательского интерфейса консоли Google.

Каталог данных не находит метаданных, связанных с файлами в корзине. Однако, если я создам таблицу BigQuery для паба/подраздела, метаданные из этих ресурсов появятся немедленно.

Я надеялся, что Каталог данных сможет сканировать файлы в наших корзинах и автоматически отображать метаданные (с возможностью поиска). Файлы в корзинах имеют формат .avro, .json, .parquet или .csv. Как уже упоминалось, это работает для BigQuery и Pub/Sub. Насколько я понимаю из документов, это также должно работать для объектов в облачном хранилище.

Кто-нибудь пробовал это и не мог бы, пожалуйста, пролить свет на этот вопрос?

Спасибо.

Ответ №1:

К сожалению, Каталог данных на данный момент не обнаруживает внутренних метаданных о содержимом наборов файлов GCS.

Комментарии:

1. Спасибо за ваш ответ! Я нахожу довольно странным, что Google не дает ясного представления об этом в своей документации. Могу я спросить вас, откуда у вас эта информация? Существует ли какая-либо дорожная карта для каталога данных?

2. Каталог данных не поддерживает эту функцию. Какая страница документации заставила вас подумать, что это не так?

Ответ №2:

Есть также комплекс данных (https://cloud.google.com/dataplex), который может сделать именно то, что вам нужно.