Может ли решение о частоте ошибок классификации быть меньше 0? И когда оно будет ровно 0?

#classification #data-science #random-forest #decision-tree

#классификация #наука о данных #случайный лес #дерево решений

Вопрос:

Например: Root = [40, 80] Левый узел = [28, 42] и правый узел = [30, 20] Используя скорость классификации, я получил

40/120 — ((28 42)/120 * 28/(28 42) (30 20)/120 * 20/(30 20)) = -0.06666667 Правильно ли я это рассчитал? И есть ли общие правила, согласно которым ошибка классификации будет равна 0? Спасибо!

Ответ №1:

Для деревьев решений выбирается критерий Gini или Entropy . Этот критерий поможет вам определить, какая функция больше всего помогает вам «разделять» классы. Я рекомендую проверить эти концепции.

Я не уверен, что вы имеете в виду под «скоростью классификации» и как вы ее вычисляете. В этом примере, который вы показываете на левом узле, вы классифицируете всю выборку как класс 2. Таким образом, вы пропускаете классификацию 28 выборок класса 1.

У вас будет 0 ошибок, если конечный узел (конечный узел) будет правильно классифицировать класс (все образцы действительно являются одним уникальным классом). Обратите внимание, что я рекомендую вам обучить модель с помощью обучения данным и проверить точность с помощью новых тестовых данных.