Оценки вероятности (достоверности) с использованием таблиц Google AutoML

#probability #confidence-interval #multiclass-classification #google-cloud-automl

#вероятность #доверительный интервал #мультикласс-классификация #google-cloud-automl

Вопрос:

Таблицы Google AutoML, используемые для создания классификатора с несколькими выходными классами, генерируют показатель достоверности для каждого из результатов классификации, который выглядит как вероятность. Можно ли это рассматривать как вероятность? Если да, то какой метод используется для создания этой вероятности? Можно ли рассчитать 95% доверительные интервалы для этой вероятности?

Ответ №1:

Да, этот результат измерения достоверности можно рассматривать как вероятность — благодаря последнему уровню softmax сети.

Независимо от того, имеет ли модель одно- или многоклассовый вывод — как упоминалось в вашем вопросе — механизм под капотом основан на функции (сигмоидной / логистической или softmax), которая отображает оценки реальных значений из последнего уровня нейронной сети в нормализованное распределение вероятностей ссоответствующие статистические свойства, позволяющие рассматривать выходные данные как вероятности.

Пожалуйста, посмотрите здесь краткое и простое объяснение слоя softmax из учебного курса Google.

Напомним, что логистическая регрессия выдает десятичное число от 0 до 1,0. Например, результат логистической регрессии 0,8 из классификатора электронной почты предполагает 80%-ную вероятность того, что электронное письмо является спамом, и 20% -ную вероятность того, что оно не является спамом. Очевидно, что сумма вероятностей того, что электронное письмо является либо спамом, либо не спамом, равна 1,0.

Softmax распространяет эту идею на мир с несколькими классами. То есть Softmax присваивает десятичные вероятности каждому классу в многоклассовой задаче. Эти десятичные вероятности должны составлять 1,0. Это дополнительное ограничение помогает обучению сходиться быстрее, чем в противном случае.