#google-data-catalog
Вопрос:
В каталоге данных Google я попытался создать новую группу записей, затем создал запись набора файлов, в которой настроен шаблон корзины и файла. Я специально не определил схему в наборе файлов, так как хочу, чтобы каталог данных автоматически находил технические метаданные внутри/из файлов. Все настраивается с помощью пользовательского интерфейса консоли Google.
Каталог данных не находит метаданных, связанных с файлами в корзине. Однако, если я создам таблицу BigQuery для паба/подраздела, метаданные из этих ресурсов появятся немедленно.
Я надеялся, что Каталог данных сможет сканировать файлы в наших корзинах и автоматически отображать метаданные (с возможностью поиска). Файлы в корзинах имеют формат .avro, .json, .parquet или .csv. Как уже упоминалось, это работает для BigQuery и Pub/Sub. Насколько я понимаю из документов, это также должно работать для объектов в облачном хранилище.
Кто-нибудь пробовал это и не мог бы, пожалуйста, пролить свет на этот вопрос?
Спасибо.
Ответ №1:
К сожалению, Каталог данных на данный момент не обнаруживает внутренних метаданных о содержимом наборов файлов GCS.
Комментарии:
1. Спасибо за ваш ответ! Я нахожу довольно странным, что Google не дает ясного представления об этом в своей документации. Могу я спросить вас, откуда у вас эта информация? Существует ли какая-либо дорожная карта для каталога данных?
2. Каталог данных не поддерживает эту функцию. Какая страница документации заставила вас подумать, что это не так?
Ответ №2:
Есть также комплекс данных (https://cloud.google.com/dataplex), который может сделать именно то, что вам нужно.