#apache-spark #pyspark #snowflake-cloud-data-platform
Вопрос:
Как использовать опцию ОЧИСТКИ в параметрах соединителя pyspark-снежинка? Я использую следующие конфигурации-
df.write.mode('overwrite')
.format(SNOWFLAKE_SOURCE_NAME)
.options(sfURL=[url],
sfUser=[user],
sfDatabase=[database],
sfSchema=[schema],
sfWarehouse=[warehouse],
sfRole=[role],
pem_private_key=pkb)
.option('truncate_table', 'ON')
.option('usestagingtable', 'OFF')
.option('continue_on_error', 'on')
.option('purge', 'off')
.option('dbtable', [dbtable])
.save()
Но похоже, что временный файл, который создается при загрузке данных из py-spark в snowflake, удаляется каждый раз, когда мы загружаем данные.
Я прочитал в документации snowflake, что если опция очистки отключена, то она не должна удалять этот файл.
Пожалуйста, дайте мне знать, как использовать эту опцию в разъеме spark snowflake.
Спасибо
Комментарии:
1. Мне интересно, почему у нас есть 3 человека, которые отчаянно просят об этом сейчас?
2. Можете ли вы попробовать .вариант(«очистить», «верно») и посмотреть, сработает ли это?
Ответ №1:
df.write.mode('overwrite')
измените это на df.write.mode('append')
// перезапись по умолчанию сначала удалит существующие файлы и сохранит новые файлы