Основной поток: Vaex: Ошибка при открытии файла паркета озера данных Azure

#azure #azure-data-lake-gen2 #vaex

Вопрос:

Я попытался открыть паркет в хранилище Azure data lake gen 2, используя URL-адрес SAS, сгенерированный (с ограничением по дате и времени и маркером, встроенным в URL-адрес), используя vaex, выполнив:

vaex.open(sas_url)

и я понял ошибку

ОШИБКА:MainThread:vaex:ошибка открытия «путь , который также был sas_url(не может опубликовать его по соображениям безопасности)» Ошибка значения: Не знаю, как открыть (не могу опубликовать URL sas), обработчик https неизвестен

Как заставить vaex прочитать файл или есть другое хранилище azure, которое лучше работает с vaex?

Комментарии:

1. Привет @Temiloluwa, он показывает ту же ошибку для меня, даже при попытке с URL-адресом большого двоичного объекта. Кроме того, не поддерживается документ, доступный там, где vaex интегрирован с хранилищем Azure. В официальном документе они привели пример с хранилищем AWS S3 и GCP. пожалуйста, посетите vaex.io/docs/example_io.html . Сообщу вам, если получу что-нибудь полезное.

Ответ №1:

Наконец-то я нашел решение! Vaex может считывать файлы в хранилище больших двоичных объектов Azure с помощью этого:

 import vaex
import adlfs

storage_account = "..."
account_key = "..."
container = "..."
object_path = "..."

fs = adlfs.AzureBlobFileSystem(account_name=storage_account, account_key=account_key)
df = vaex.open(f"abfs://{container}/{object_path}", fs=fs)
 

для получения более подробной информации я нашел решение в https://github.com/vaexio/vaex/issues/1272

Ответ №2:

Vaex не способен считывать данные с помощью источника https, поэтому вы получаете сообщение об ошибке «не известен обработчик https».

Кроме того, согласно документу, vaex поддерживает ввод данных из корзин Amazon S3 и облачного хранилища Google.

Облачная поддержка:

Amazon Web Services S3

Облачное хранилище Google

Другие варианты облачного хранилища

Они упомянули, что также поддерживаются другие облачные хранилища, но нигде нет подтверждающего документа с каким-либо примером, в котором они извлекают данные из учетной записи хранилища Azure, которая также использует URL-адрес SAS.

Также, пожалуйста, посетите документ API для библиотеки vaex для получения дополнительной информации.