#google-cloud-platform #dataflow
# #google-облачная платформа #поток данных
Вопрос:
Один из шаблонов утилит Google Dataflow позволяет нам выполнять сжатие файлов в GCS (массовое сжатие файлов облачного хранилища).
Хотя возможно иметь несколько входных данных для параметра, состоящего из разных папок (например: inputFilePattern=gs://YOUR_BUCKET_NAME/ несжатый /**.csv,), действительно ли возможно сохранить «сжатые» / обработанные файлы в ту же папку, где они были сохранены изначально?
Ответ №1:
Если вы посмотрите документацию:
Добавленные расширения будут одним из: .bzip2, .deflate, .gz.
Поэтому новые сжатые файлы не будут соответствовать предоставленному шаблону (* .csv). И, таким образом, вы можете хранить их в одной папке без конфликтов.
Кроме того, этот процесс является пакетным процессом. Когда вы смотрите глубже в компонент ввода-вывода потока данных, особенно для чтения с шаблоном в GCS, список файлов (файлов для сжатия) считывается в начале задания и, следовательно, не изменяется во время задания.
Поэтому, если у вас есть новые файлы, которые поступают и которые соответствуют шаблону во время задания, они не будут учитываться текущим заданием. Вам придется запустить другое задание, чтобы получить эти новые файлы.
Наконец, последнее: существующие несжатые файлы не заменяются сжатыми. Это означает, что у вас будет файл в двух вариантах: сжатый и несжатый. Для экономии места (и денег) Я рекомендую вам удалить одну из двух версий.