#dataframe #pyspark
#фрейм данных #pyspark
Вопрос:
Как я могу проанализировать pyspark df в таблице hive? Кроме того, есть ли какой-либо способ создать csv с заголовком из моего df?
Я не использую pandas, мои dfs создаются с помощью spark.sql() .
Ответ №1:
Вы можете считывать hive table
данные в pyspark с помощью df, а затем записывать df с header
помощью using .option("header","true")
.
Example:
df=spark.sql("select * from <db>.<hive_table>")
df.write.mode("overwrite").option("header","true").csv("<file_path>")
UPDATE:
#choosee mode either overwrite/append
df.write.mode("overwrite").saveAsTable("<hive_db>.<hive_table>")
#or using spark sql
df.createOrReplaceTempView("tmp")
spark.sql("insert into <hive_db>.<hive_table> select * from tmp")
Комментарии:
1. Спасибо за ответ. df.write.mode работал идеально. Для улья я хочу поместить df в таблицу, а не таблицу в df
2. Пожалуйста, проверьте
UPDATE
раздел ответа!