Как я могу создать набор данных Azure в Azure ML studio (через графический интерфейс) из файла parquet, созданного с помощью Azure Spark

#azure #apache-spark #parquet #azure-machine-learning-studio

#azure #apache-spark #parquet #azure-machine-learning-studio

Вопрос:

Я пытаюсь загрузить файлы в виде набора данных в графический интерфейс Azure ML Studio. Эти файлы parquet были созданы с помощью Spark.

В моей папке Spark создает файлы, такие как «_SUCCESS» или «_committed_8998000».

Azure ML Studio не может их прочитать или проигнорировать и сообщает мне:

 The provided file(s) have invalid byte(s) for the specified file encoding.
{
  "message": " "
}
  

Я выбрал «Игнорировать непревзойденный путь к файлам», и все же он по-прежнему не работает.

Если я удалю «_SUCCESS» и другие файлы Spark, это сработает.

Ответ №1:

Спасибо за отзыв. Вы можете использовать глобализацию в path. например, path = ‘**/*.parquet’, чтобы выбрать только файлы parquet

Комментарии:

1. Я использовал «path / */ *.parquet» в поле «Путь», и теперь он работает.

Ответ №2:

Это проблема с Azure ML Studio. Предположительно, он пытается проанализировать и декодировать файлы CRC, которые по умолчанию записываются рядом с файлом Parquet.

Решение прямо сейчас состоит в том, чтобы избавиться от этих файлов, и, надеюсь, Microsoft в конечном итоге исправит эту проблему на своей стороне.