#azure #apache-spark #parquet #azure-machine-learning-studio
#azure #apache-spark #parquet #azure-machine-learning-studio
Вопрос:
Я пытаюсь загрузить файлы в виде набора данных в графический интерфейс Azure ML Studio. Эти файлы parquet были созданы с помощью Spark.
В моей папке Spark создает файлы, такие как «_SUCCESS» или «_committed_8998000».
Azure ML Studio не может их прочитать или проигнорировать и сообщает мне:
The provided file(s) have invalid byte(s) for the specified file encoding.
{
"message": " "
}
Я выбрал «Игнорировать непревзойденный путь к файлам», и все же он по-прежнему не работает.
Если я удалю «_SUCCESS» и другие файлы Spark, это сработает.
Ответ №1:
Спасибо за отзыв. Вы можете использовать глобализацию в path. например, path = ‘**/*.parquet’, чтобы выбрать только файлы parquet
Комментарии:
1. Я использовал «path / */ *.parquet» в поле «Путь», и теперь он работает.
Ответ №2:
Это проблема с Azure ML Studio. Предположительно, он пытается проанализировать и декодировать файлы CRC, которые по умолчанию записываются рядом с файлом Parquet.
Решение прямо сейчас состоит в том, чтобы избавиться от этих файлов, и, надеюсь, Microsoft в конечном итоге исправит эту проблему на своей стороне.