Фрейм данных Pyspark в таблицу улья

#dataframe #pyspark

#фрейм данных #pyspark

Вопрос:

Как я могу проанализировать pyspark df в таблице hive? Кроме того, есть ли какой-либо способ создать csv с заголовком из моего df?

Я не использую pandas, мои dfs создаются с помощью spark.sql() .

Ответ №1:

Вы можете считывать hive table данные в pyspark с помощью df, а затем записывать df с header помощью using .option("header","true") .

Example:

 df=spark.sql("select * from <db>.<hive_table>")

df.write.mode("overwrite").option("header","true").csv("<file_path>")
 

UPDATE:

 #choosee mode either overwrite/append
df.write.mode("overwrite").saveAsTable("<hive_db>.<hive_table>")

#or using spark sql
df.createOrReplaceTempView("tmp")
spark.sql("insert into <hive_db>.<hive_table> select * from tmp")
 

Комментарии:

1. Спасибо за ответ. df.write.mode работал идеально. Для улья я хочу поместить df в таблицу, а не таблицу в df

2. Пожалуйста, проверьте UPDATE раздел ответа!