Классификация WEKA с использованием вложений

#weka

Вопрос:

В настоящее время я работаю над классификацией фрагментов кода с использованием моделей Code2vec, которые я обучил набору фрагментов кода python, моя идея состояла в том, чтобы создать вложения для каждого фрагмента кода, прикрепить к нему метку и использовать ее в дальнейшем для окончательной классификации, например, файл arff для weka будет выглядеть следующим образом:

 relation XYZ 

@Attributes @Class@ {buggy,non_buggy}
@Attributes index1 real 
.........
.........
.........
.........
.........
@Attributes index380 real

@data

buggy, 0.28600096702575684, -0.03643874451518059, -0.06801733374595642,.......
..................
..................
..................
non_buggy, 0.4966501295566559, -0.38083720207214355, -0.378182053565979,.......
 

Для классификации я разделил свой полный набор данных на 80% для обучения и 20% для тестирования, используя опцию процентного разделения, предоставленную WEKA. Я получил точность 99%. Я был удивлен, хотя пытался выполнить другие разбиения, например, 1% для обучения и 99% для тестирования, однако производительность все еще хорошая, почти 99% точности, которую я нашел в этом случае не логичной.

нужно ли мне что-то менять до второго раскола ? кто-нибудь сталкивался с этой проблемой при работе с внедрениями в WEKA?

Комментарии:

1. Каково распределение двух меток классов? Если одна из меток составляет 99% экземпляров, то модели нужно только предсказать эту метку, что даст вам точность 99%. Кстати, Правильный формат ARFF — это @attribute и нет @Attributes , и @relation и нет relation .