#weka
Вопрос:
В настоящее время я работаю над классификацией фрагментов кода с использованием моделей Code2vec, которые я обучил набору фрагментов кода python, моя идея состояла в том, чтобы создать вложения для каждого фрагмента кода, прикрепить к нему метку и использовать ее в дальнейшем для окончательной классификации, например, файл arff для weka будет выглядеть следующим образом:
relation XYZ
@Attributes @Class@ {buggy,non_buggy}
@Attributes index1 real
.........
.........
.........
.........
.........
@Attributes index380 real
@data
buggy, 0.28600096702575684, -0.03643874451518059, -0.06801733374595642,.......
..................
..................
..................
non_buggy, 0.4966501295566559, -0.38083720207214355, -0.378182053565979,.......
Для классификации я разделил свой полный набор данных на 80% для обучения и 20% для тестирования, используя опцию процентного разделения, предоставленную WEKA. Я получил точность 99%. Я был удивлен, хотя пытался выполнить другие разбиения, например, 1% для обучения и 99% для тестирования, однако производительность все еще хорошая, почти 99% точности, которую я нашел в этом случае не логичной.
нужно ли мне что-то менять до второго раскола ? кто-нибудь сталкивался с этой проблемой при работе с внедрениями в WEKA?
Комментарии:
1. Каково распределение двух меток классов? Если одна из меток составляет 99% экземпляров, то модели нужно только предсказать эту метку, что даст вам точность 99%. Кстати, Правильный формат ARFF — это
@attribute
и нет@Attributes
, и@relation
и нетrelation
.