Как использовать опцию очистки в соединителе Pyspark Snowflake?

#apache-spark #pyspark #snowflake-cloud-data-platform

Вопрос:

Как использовать опцию ОЧИСТКИ в параметрах соединителя pyspark-снежинка? Я использую следующие конфигурации-

 df.write.mode('overwrite') 
        .format(SNOWFLAKE_SOURCE_NAME) 
        .options(sfURL=[url],
                 sfUser=[user],
                 sfDatabase=[database],
                 sfSchema=[schema],
                 sfWarehouse=[warehouse],
                 sfRole=[role],
                 pem_private_key=pkb) 
        .option('truncate_table', 'ON') 
        .option('usestagingtable', 'OFF') 
        .option('continue_on_error', 'on') 
        .option('purge', 'off') 
        .option('dbtable', [dbtable]) 
        .save()
 

Но похоже, что временный файл, который создается при загрузке данных из py-spark в snowflake, удаляется каждый раз, когда мы загружаем данные.
Я прочитал в документации snowflake, что если опция очистки отключена, то она не должна удалять этот файл.
Пожалуйста, дайте мне знать, как использовать эту опцию в разъеме spark snowflake.
Спасибо

Комментарии:

1. Мне интересно, почему у нас есть 3 человека, которые отчаянно просят об этом сейчас?

2. Можете ли вы попробовать .вариант(«очистить», «верно») и посмотреть, сработает ли это?

Ответ №1:

df.write.mode('overwrite') измените это на df.write.mode('append') // перезапись по умолчанию сначала удалит существующие файлы и сохранит новые файлы