Как добавить несколько csv-файлов в каталог в kedro

#azure-blob-storage #kedro

Вопрос:

У меня есть 4 csv-файла в хранилище больших двоичных объектов Azure с теми же метаданными, которые я хочу обработать. Как я могу добавить их в каталог данных с одним именем в Kedro.
Я проверил этот вопрос
https://stackoverflow.com/questions/61645397/how-do-i-add-many-csv-files-to-the-catalog-in-kedro
Но это, похоже, загружает все файлы в данной папке. Но мое требование состоит в том, чтобы читать только данные 4 из многих файлов в контейнере azure.

Пример: У меня много файлов в контейнере azure, в которых 4 файла csv транзакций с именами sales_lt;date_fromgt;_lt;date_fromgt;lt;date_togt;.csv, я хочу загрузить эти 4 файла csv транзакций в каталог данных kedro под одним набором данных.

Комментарии:

1. Конкретный пример был бы очень полезен, чтобы мы могли помочь в поиске решения. Прямо сейчас вам нужно сделать предположения о том, как может выглядеть ваша структура.

2. Пример добавлен, надеюсь, это поможет вам понять.

Ответ №1:

Для начала, PartitionedDataSet это лениво, что означает, что файлы фактически не загружаются до тех пор, пока вы явно не вызовете эту функцию. Даже если у вас есть 100 CSV-файлов , которые будут собраны PartitionedDataSet , вы можете выбрать разделы, с которыми вы на самом деле загружаете/работаете.

Во-вторых, что отличает эти 4 файла от других? Если у них есть уникальный суффикс, вы можете использовать filename_suffix опцию, чтобы просто выбрать их. Например, если у вас есть:

 file_i_dont_care_about.csv first_file_i_care_about.csv second_file_i_care_about.csv third_file_i_care_about.csv fourth_file_i_care_about.csv  

вы можете уточнить filepath_suffix: _file_i_care_about.csv .

Комментарии:

1. У меня есть файлы, например sales_lt;date_fromgt;_lt;date_togt;.csv , может быть, мне нужно переименовать файлы, например lt;date_fromgt;_lt;date_togt;_sales.csv , использовать опцию filename_suffix

Ответ №2:

Не думаю , что есть прямой способ сделать это, вы можете добавить еще один подкаталог в хранилище больших двоичных объектов с 4 файлами, а затем использовать

my_partitioned_dataset:

type: «Разделенный набор данных»

path: «данные/01_raw/подкаталог/»

dataset: «панды.Набор данных CSV»

Или в случае ,если требование использовать только 4 файла не изменится в ближайшее время, вы также можете передать 4 файла catalog.yml отдельно, чтобы избежать чрезмерной разработки.