#azure #azure-data-lake-gen2 #vaex
Вопрос:
Я попытался открыть паркет в хранилище Azure data lake gen 2, используя URL-адрес SAS, сгенерированный (с ограничением по дате и времени и маркером, встроенным в URL-адрес), используя vaex, выполнив:
vaex.open(sas_url)
и я понял ошибку
ОШИБКА:MainThread:vaex:ошибка открытия «путь , который также был sas_url(не может опубликовать его по соображениям безопасности)» Ошибка значения: Не знаю, как открыть (не могу опубликовать URL sas), обработчик https неизвестен
Как заставить vaex прочитать файл или есть другое хранилище azure, которое лучше работает с vaex?
Комментарии:
1. Привет @Temiloluwa, он показывает ту же ошибку для меня, даже при попытке с URL-адресом большого двоичного объекта. Кроме того, не поддерживается документ, доступный там, где vaex интегрирован с хранилищем Azure. В официальном документе они привели пример с хранилищем AWS S3 и GCP. пожалуйста, посетите vaex.io/docs/example_io.html . Сообщу вам, если получу что-нибудь полезное.
Ответ №1:
Наконец-то я нашел решение! Vaex может считывать файлы в хранилище больших двоичных объектов Azure с помощью этого:
import vaex
import adlfs
storage_account = "..."
account_key = "..."
container = "..."
object_path = "..."
fs = adlfs.AzureBlobFileSystem(account_name=storage_account, account_key=account_key)
df = vaex.open(f"abfs://{container}/{object_path}", fs=fs)
для получения более подробной информации я нашел решение в https://github.com/vaexio/vaex/issues/1272
Ответ №2:
Vaex не способен считывать данные с помощью источника https, поэтому вы получаете сообщение об ошибке «не известен обработчик https».
Кроме того, согласно документу, vaex поддерживает ввод данных из корзин Amazon S3 и облачного хранилища Google.
Облачная поддержка:
Amazon Web Services S3
Облачное хранилище Google
Другие варианты облачного хранилища
Они упомянули, что также поддерживаются другие облачные хранилища, но нигде нет подтверждающего документа с каким-либо примером, в котором они извлекают данные из учетной записи хранилища Azure, которая также использует URL-адрес SAS.
Также, пожалуйста, посетите документ API для библиотеки vaex для получения дополнительной информации.