Возможно ли хранить обработанные файлы там, где они были сохранены изначально, используя предоставленные Google шаблоны утилит?

#google-cloud-platform #dataflow

# #google-облачная платформа #поток данных

Вопрос:

Один из шаблонов утилит Google Dataflow позволяет нам выполнять сжатие файлов в GCS (массовое сжатие файлов облачного хранилища).

Хотя возможно иметь несколько входных данных для параметра, состоящего из разных папок (например: inputFilePattern=gs://YOUR_BUCKET_NAME/ несжатый /**.csv,), действительно ли возможно сохранить «сжатые» / обработанные файлы в ту же папку, где они были сохранены изначально?

Ответ №1:

Если вы посмотрите документацию:

Добавленные расширения будут одним из: .bzip2, .deflate, .gz.

Поэтому новые сжатые файлы не будут соответствовать предоставленному шаблону (* .csv). И, таким образом, вы можете хранить их в одной папке без конфликтов.

Кроме того, этот процесс является пакетным процессом. Когда вы смотрите глубже в компонент ввода-вывода потока данных, особенно для чтения с шаблоном в GCS, список файлов (файлов для сжатия) считывается в начале задания и, следовательно, не изменяется во время задания.

Поэтому, если у вас есть новые файлы, которые поступают и которые соответствуют шаблону во время задания, они не будут учитываться текущим заданием. Вам придется запустить другое задание, чтобы получить эти новые файлы.

Наконец, последнее: существующие несжатые файлы не заменяются сжатыми. Это означает, что у вас будет файл в двух вариантах: сжатый и несжатый. Для экономии места (и денег) Я рекомендую вам удалить одну из двух версий.