Имеет ли H2O Driverless AI встроенную поддержку для объединения нескольких наборов данных и использования объединенного набора данных для обучения?

#csv #h2o #training-data #merging-data #driverless-ai

#csv #h2o #обучение-данные #слияние-данные #driverless-ai

Вопрос:

Предположим, у нас есть три набора данных, содержащих данные от компании.

  1. employee.csv: этот набор данных содержит сведения о сотрудниках, работающих в компании, такие как идентификатор сотрудника, имя сотрудника, идентификатор отдела отдела, в котором он работает, код страны страны, откуда он родом, и его годовая зарплата.
  2. dept.csv: этот набор данных содержит информацию об отделе компании, такую как идентификатор отдела, название отдела, специализация отдела.
  3. country.csv: этот набор данных содержит названия некоторых стран с их кодом страны и столицей страны.

Есть ли в H2O Driverless AI функция, с помощью которой мы можем загружать эти наборы данных (без объединения с помощью python) и объединять их в платформе H2O Driverless AI и использовать для обучения с использованием перекрывающихся столбцов?

Ответ №1:

Да, вы можете использовать рецепт данных для обработки наборов данных (включая их объединение). Подробнее о рецептах данных см. В документации. Вы можете создать рецепт, который объединяет наборы данных.

 # Let's join a `employee.csv` (X) to `dept.csv` (Y1) and `country.csv` (Y2)
# Define and read locations of datasets for Y1/Y2
Y_file_name1 = "./tmp/user/location_of_dept.csv.bin"
Y_file_name2 = "./tmp/user/location_of_country.csv.bin"
Y1 = dt.fread(Y_file_name1)
Y2 = dt.fread(Y_file_name2)

# Set key and join Y1
key1 = ["dept_id"]
Y1.key = key1
X = X[:, :, dt.join(Y1)]

# Set key and join Y2
key2 = ["country_code"]
Y2.key = key2
X = X[:, :, dt.join(Y2)]

return X
  

Смотрите Этот рецепт в качестве примера для объединения одного набора данных с другим.