#classification #data-science #random-forest #decision-tree
#классификация #наука о данных #случайный лес #дерево решений
Вопрос:
Например: Root = [40, 80] Левый узел = [28, 42] и правый узел = [30, 20] Используя скорость классификации, я получил
40/120 — ((28 42)/120 * 28/(28 42) (30 20)/120 * 20/(30 20)) = -0.06666667 Правильно ли я это рассчитал? И есть ли общие правила, согласно которым ошибка классификации будет равна 0? Спасибо!
Ответ №1:
Для деревьев решений выбирается критерий Gini
или Entropy
. Этот критерий поможет вам определить, какая функция больше всего помогает вам «разделять» классы. Я рекомендую проверить эти концепции.
Я не уверен, что вы имеете в виду под «скоростью классификации» и как вы ее вычисляете. В этом примере, который вы показываете на левом узле, вы классифицируете всю выборку как класс 2. Таким образом, вы пропускаете классификацию 28 выборок класса 1.
У вас будет 0 ошибок, если конечный узел (конечный узел) будет правильно классифицировать класс (все образцы действительно являются одним уникальным классом). Обратите внимание, что я рекомендую вам обучить модель с помощью обучения данным и проверить точность с помощью новых тестовых данных.