Как конвертировать csv-файл в файл avro с помощью PySpark?

#python #apache-spark #pyspark

Вопрос:

Я работаю в облачной платформе Google и пытаюсь использовать Pyspark для преобразования csv-файла в файл avro. Я видел много веб-сайтов, но мне не удалось найти решение. Заранее благодарю вас. 🙂

Комментарии:

1. Пожалуйста, поделитесь любым кодом, который вы написали, пытаясь решить проблему. Пользователи смогут предоставлять решения, обновляя ваш код.

Ответ №1:

Вы можете прочитать csv-файл в набор данных/фрейм данных с помощью spark и использовать библиотеку databricks, чтобы записать его как avro. Что-то вроде:

набор данных.запись.формат(«com.databricks.spark.avro»).сохранение(«ваш выходной путь»)