Как управлять несколькими наборами данных — Машинное обучение Azure

#azure-machine-learning-studio #data-transform

#azure-machine-learning-studio #преобразование данных

Вопрос:

Существует ли какой-либо модуль, который принимает для обработки более одного набора данных? Например, «Разделить данные», «Редактировать метаданные» и «выбрать столбцы в наборе данных» не принимают более одного набора данных в качестве входных данных.

Вот что я сделал: в моей модели есть несколько числовых и категориальных переменных.Я использовал модуль «Преобразовать в переменные индикатора» для создания фиктивных переменных для моих данных. Как мне включить переменные индикатора и числовые переменные в один набор данных, чтобы я мог разделить данные для своей модели?

На данный момент я занимаюсь обработкой данных на Python и перемещением наборов данных в Azure MLS для моделирования. В идеале мне нужно поработать над обработкой данных в Azure MLS.

Я ожидаю, что у меня будет один модуль, который объединяет как категориальные переменные, привязанные к бинам, так и числовые переменные в Azure MLS

Ответ №1:

Да, есть несколько модулей, получающих несколько наборов данных — добавление столбцов, применение преобразования SQL, выполнение скрипта Python и многие другие.

Не уверен, зачем они вам нужны для значений индикаторов, хотя, предполагая, что вы говорите о разделении поездов / тестов, я бы просто разделил данные после вызова модуля «Преобразовать в значения индикаторов».

Комментарии:

1. Я нашел ответ. Я пропустил опцию перезаписи категориальных столбцов в «Преобразовать в значения индикаторов».

Ответ №2:

Я добавлю к приведенному выше ответу. Вы можете использовать сценарий Execute R, а также объединять данные, если наборы данных имеют общие ключи.