Запрос, связанный с частотой неправильной классификации в деревьях решений

#r #statistics #decision-tree

#r #Статистика #дерево решений

Вопрос:

Я работаю над моделью дерева решений.Набор данных относится к автомобилям.У меня есть 80% данных в обучающем наборе и 20% тестового набора. Сводка модели (на основе данных обучения) показывает частоту неправильной классификации около 0,02605, где, когда я запускаю модель на обучающем наборе, она равна 0,0289, разница между ними составляет около 0,003. Приемлема ли разница, что вызывает эту разницу? Я новичок в R / statistics.Пожалуйста, поделитесь своими отзывами.

Ответ №1:

Допустимая частота неправильной классификации — это скорее искусство, чем наука. Если ваши данные генерируются из одной совокупности, то, без сомнения, существует некоторое неизбежное перекрытие между группами, что приведет к ошибкам линейной классификации. Это не означает, что это проблема. Например, если вы классифицируете платежи по кредитной карте как, возможно, мошеннические или нет, и ваше обращение не слишком суровое в случае, когда вы относите наблюдение к первому, тогда вам может быть выгодно быть на более безопасной стороне и в итоге получить больше ложных срабатываний, а не низкую неправильную классификациюскорость. Вы могли бы 1. визуализировать свои данные, чтобы выявить перекрытие, или 2. вычислить N * .03, чтобы определить количество неправильно классифицированных случаев; если у вас есть понимание того, что вы классифицируете, вы могли бы оценить серьезность неправильной классификации таким образом.