Фрейм данных Pyspark в таблицу улья

#dataframe #pyspark

#фрейм данных #pyspark

Вопрос:

Как я могу проанализировать pyspark df в таблице hive? Кроме того, есть ли какой-либо способ создать csv с заголовком из моего df?

Я не использую pandas, мои dfs создаются с помощью spark.sql() .

Ответ №1:

Вы можете считывать hive table данные в pyspark с помощью df, а затем записывать df с header помощью using .option("header","true") .

Example:

 df=spark.sql("select * from <db>.<hive_table>")

df.write.mode("overwrite").option("header","true").csv("<file_path>")

UPDATE:

 #choosee mode either overwrite/append
df.write.mode("overwrite").saveAsTable("<hive_db>.<hive_table>")

#or using spark sql
df.createOrReplaceTempView("tmp")
spark.sql("insert into <hive_db>.<hive_table> select * from tmp")

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Можно ли использовать Eclipse для генерации типа объекта, выведенного из Scala?

Лучшие практики? Преобразование указателей в Unique_Ptrs

Медиа-запрос, используемый для форматирования электронной почты, не работает