#metadata #azure-blob-storage #catalog
Вопрос:
Я хочу каталогизировать данные, хранящиеся в файлах csv в хранилище больших двоичных объектов Azure. Я попытался посмотреть, есть ли в любом случае возможность получить метаданные хранилища больших двоичных объектов, и нашел каталог данных. Дело в том, что csv-файл обрабатывается как большой двоичный объект, и мы не можем его профилировать. Я хочу, чтобы csv-файлы в хранилище больших двоичных объектов действовали как таблицы.
Возможно ли это с помощью каталога данных Azure?
Ответ №1:
Да, вы можете использовать Каталог данных, Для обновленных функций каталога данных, пожалуйста, используйте новую службу Azure Purview, которая предлагает единое управление данными для всей вашей базы данных. Я бы рекомендовал использовать : Azure Purview( все еще возможно через каталог данных)
Регистрация ресурсов из источника данных копирует метаданные ресурсов в Azure, но данные остаются в существующем расположении источника данных.
Для обновления функций каталога данных, пожалуйста, используйте новую службу Azure Purview, которая предлагает единое управление данными для всей вашей базы данных. Введение в Azure Purview (предварительный просмотр) — Azure Purview В этой статье представлен обзор Azure Purview, включая его функции и проблемы, которые он решает. Azure Purview позволяет любому пользователю регистрироваться, обнаруживать, понимать и использовать источники данных.
- Для получения дополнительной информации о тегах индекса больших двоичных объектов классифицируйте данные в своей учетной записи хранения с помощью атрибутов тегов «ключ-значение». Эти теги автоматически индексируются и отображаются в виде многомерного индекса с возможностью поиска, чтобы легко находить данные. В этой статье показано, как задать, получить и найти данные с помощью тегов индекса blob-объектов. Используйте теги индекса больших двоичных объектов для управления и поиска данных в хранилище больших двоичных объектов Azure
Комментарии:
1. Кроме этой опции, нет ли другого способа получить каталог данных во всех файлах CSV и выполнить запросы к данным, используя полученную информацию каталога? Например, в AWS S3 может хранить различные CSV-файлы, мы используем сервисы GLUE и Athena для получения каталога CSV-файлов и запроса данных из полученной информации каталога. В Azure нет ли способа использовать уже существующие службы для чтения данных в файлах CSV без их загрузки в локальной среде? Решение, о котором вы упомянули, является пользовательским решением
2. Azure purview не решает мою проблему, мне нужны данные внутри csv для профилирования.