#python #apache-spark #pyspark
Вопрос:
Я работаю в облачной платформе Google и пытаюсь использовать Pyspark для преобразования csv-файла в файл avro. Я видел много веб-сайтов, но мне не удалось найти решение. Заранее благодарю вас. 🙂
Комментарии:
1. Пожалуйста, поделитесь любым кодом, который вы написали, пытаясь решить проблему. Пользователи смогут предоставлять решения, обновляя ваш код.
Ответ №1:
Вы можете прочитать csv-файл в набор данных/фрейм данных с помощью spark и использовать библиотеку databricks, чтобы записать его как avro. Что-то вроде:
набор данных.запись.формат(«com.databricks.spark.avro»).сохранение(«ваш выходной путь»)