#azure-blob-storage #kedro
Вопрос:
У меня есть 4 csv-файла в хранилище больших двоичных объектов Azure с теми же метаданными, которые я хочу обработать. Как я могу добавить их в каталог данных с одним именем в Kedro.
Я проверил этот вопрос
https://stackoverflow.com/questions/61645397/how-do-i-add-many-csv-files-to-the-catalog-in-kedro
Но это, похоже, загружает все файлы в данной папке. Но мое требование состоит в том, чтобы читать только данные 4 из многих файлов в контейнере azure.
Пример: У меня много файлов в контейнере azure, в которых 4 файла csv транзакций с именами sales_lt;date_fromgt;_lt;date_fromgt;lt;date_togt;.csv, я хочу загрузить эти 4 файла csv транзакций в каталог данных kedro под одним набором данных.
Комментарии:
1. Конкретный пример был бы очень полезен, чтобы мы могли помочь в поиске решения. Прямо сейчас вам нужно сделать предположения о том, как может выглядеть ваша структура.
2. Пример добавлен, надеюсь, это поможет вам понять.
Ответ №1:
Для начала, PartitionedDataSet
это лениво, что означает, что файлы фактически не загружаются до тех пор, пока вы явно не вызовете эту функцию. Даже если у вас есть 100 CSV-файлов , которые будут собраны PartitionedDataSet
, вы можете выбрать разделы, с которыми вы на самом деле загружаете/работаете.
Во-вторых, что отличает эти 4 файла от других? Если у них есть уникальный суффикс, вы можете использовать filename_suffix
опцию, чтобы просто выбрать их. Например, если у вас есть:
file_i_dont_care_about.csv first_file_i_care_about.csv second_file_i_care_about.csv third_file_i_care_about.csv fourth_file_i_care_about.csv
вы можете уточнить filepath_suffix: _file_i_care_about.csv
.
Комментарии:
1. У меня есть файлы, например
sales_lt;date_fromgt;_lt;date_togt;.csv
, может быть, мне нужно переименовать файлы, напримерlt;date_fromgt;_lt;date_togt;_sales.csv
, использовать опцию filename_suffix
Ответ №2:
Не думаю , что есть прямой способ сделать это, вы можете добавить еще один подкаталог в хранилище больших двоичных объектов с 4 файлами, а затем использовать
my_partitioned_dataset:
type:
«Разделенный набор данных»
path:
«данные/01_raw/подкаталог/»
dataset:
«панды.Набор данных CSV»
Или в случае ,если требование использовать только 4 файла не изменится в ближайшее время, вы также можете передать 4 файла catalog.yml
отдельно, чтобы избежать чрезмерной разработки.