#amazon-web-services #amazon-sagemaker
#amazon-веб-сервисы #amazon-sagemaker
Вопрос:
Я использовал приведенные ниже гиперпараметры для обучения модели.
rcf.set_hyperparameters(
num_samples_per_tree=200,
num_trees=250,
feature_dim=1,
eval_metrics =["accuracy", "precision_recall_fscore"])
есть ли какой-либо наилучший способ выбрать параметры num_samples_per_tree и num_trees.
каковы наилучшие значения как для num_samples_per_tree, так и для num_trees.
Комментарии:
1. Для HPO вы можете воспользоваться сервисом настройки SageMaker: aws.amazon.com/blogs/aws/sagemaker-automatic-model-tuning
2. Привет, большое спасибо за ваш ответ, я перешел по предоставленной вами ссылке, но я не видел, чтобы какой-либо алгоритм был указан. у меня есть предварительно обработанные данные, хранящиеся в расположении S3, не могли бы вы, пожалуйста, указать мне, как продолжить настройку параметров.
Ответ №1:
Для этих двух гиперпараметров существуют естественные интерпретации, которые могут помочь вам определить хорошие начальные приближения для HPO:
num_samples_per_tree
— величина, обратная этому значению, приблизительно соответствует плотности аномалий в вашем наборе данных / потоке. Например, если вы установите для этого значение200
, то предполагается, что примерно 0,5% данных являются аномальными. Попробуйте изучить свой набор данных, чтобы сделать обоснованную оценку.num_trees
— чем больше деревьев в вашей модели RCF, тем меньше шума в оценках. То есть, если больше деревьев сообщают, что входная точка вывода является аномалией, то точка с гораздо большей вероятностью будет аномалией, чем если бы несколько деревьев предполагали это.
Общее количество точек, отобранных из входного набора данных, равно num_samples_per_tree * num_trees
. Вы должны убедиться, что входной обучающий набор имеет по крайней мере этот размер.
(Раскрытие информации — я помогал создавать лес случайного вырезания SageMaker)
Комментарии:
1. Привет, Крис, я обучил модель и показал конечную точку с помощью AWS sagemaker. (получена лучшая работа на основе настройки гиперпараметров) после вывода получил несколько оценок, основанных на третьем отсечении отклонения от стандартного значения (среднее значение 3 * стандартное значение), признал их аномалией. Теперь проблема в том, как мы можем убедить пользователя, действительно ли это аномалия или нет. я применил что-то вроде вычисления 3-го стандартного параметра каждой функции, если оно больше исходного, я рассматриваю как функцию, способствующую аномалии. помимо этого, есть ли какой-либо наилучший способ выяснить, какой вклад функции в аномалию.
2. Насколько я понимаю, вы спрашиваете о двух вещах: (1) определении порога и (2) атрибуции объекта. Что касается (1): подгонка распределения по Гауссу — хорошая попытка O (1), но, вероятно, приведет к большему количеству ложных срабатываний. Установление порогового значения может быть сложной проблемой, и это очень сильно зависит от данных. Что касается (2): хотя атрибуция объектов в RCF теоретически возможна, реализация SageMaker не предоставляет необходимой информации.
3. Привет, Крис, спасибо за твой ответ. я слышал о том, что RANDOM_CUT_FOREST_WITH_EXPLANATION решит мою проблему. объяснение оценки попытается дать нам оценку каждого атрибута после завершения настройки гиперпараметров, получения из него наилучшей модели и открытой конечной точки на основе лучшего названия задания. не могли бы вы, пожалуйста, предоставить мне какие-либо примеры, чтобы получить RANDOM_CUT_FOREST_WITH_EXPLANATION с открытой конечной точкой. Как только у меня это будет, моя проблема будет решена.
4. Функция, на которую вы ссылаетесь, является частью Amazon Kinesis Data Analytics . На момент публикации этого комментария эта функция недоступна в Amazon SageMaker RandomCutForest.
5. Привет, Крис, атрибуция теперь является задачей остановки показа, так как после обнаружения аномалии, если вы не смогли сообщить конечному пользователю, какой атрибут вызывает аномалию, конечному пользователю будет очень сложно проверить тысячи атрибутов, если у вас есть какой-либо обходной путь или любое решение, пожалуйста, сообщите нам об этом, мы не могли позволить себе KA, поскольку у нас сотни моделей и не доступный поток kenesis 100