Можно ли каталогизировать данные в CSV-файлах в хранилище Blob-объектов Azure с помощью каталога данных Azure?

#metadata #azure-blob-storage #catalog

Вопрос:

Я хочу каталогизировать данные, хранящиеся в файлах csv в хранилище больших двоичных объектов Azure. Я попытался посмотреть, есть ли в любом случае возможность получить метаданные хранилища больших двоичных объектов, и нашел каталог данных. Дело в том, что csv-файл обрабатывается как большой двоичный объект, и мы не можем его профилировать. Я хочу, чтобы csv-файлы в хранилище больших двоичных объектов действовали как таблицы.

Возможно ли это с помощью каталога данных Azure?

Ответ №1:

Да, вы можете использовать Каталог данных, Для обновленных функций каталога данных, пожалуйста, используйте новую службу Azure Purview, которая предлагает единое управление данными для всей вашей базы данных. Я бы рекомендовал использовать : Azure Purview( все еще возможно через каталог данных)

Регистрация ресурсов из источника данных копирует метаданные ресурсов в Azure, но данные остаются в существующем расположении источника данных.

Для обновления функций каталога данных, пожалуйста, используйте новую службу Azure Purview, которая предлагает единое управление данными для всей вашей базы данных. Введение в Azure Purview (предварительный просмотр) — Azure Purview В этой статье представлен обзор Azure Purview, включая его функции и проблемы, которые он решает. Azure Purview позволяет любому пользователю регистрироваться, обнаруживать, понимать и использовать источники данных.

В этой статье описано, как зарегистрировать учетную запись хранения Blob-объектов Azure в Purview и настроить сканирование.

Комментарии:

1. Кроме этой опции, нет ли другого способа получить каталог данных во всех файлах CSV и выполнить запросы к данным, используя полученную информацию каталога? Например, в AWS S3 может хранить различные CSV-файлы, мы используем сервисы GLUE и Athena для получения каталога CSV-файлов и запроса данных из полученной информации каталога. В Azure нет ли способа использовать уже существующие службы для чтения данных в файлах CSV без их загрузки в локальной среде? Решение, о котором вы упомянули, является пользовательским решением

2. Azure purview не решает мою проблему, мне нужны данные внутри csv для профилирования.