#machine-learning #annotations #sentiment-analysis
#машинное обучение #аннотации #анализ настроений
Вопрос:
Я собрал несколько обзоров на книги, DVD, мобильные устройства и камеры из www.amazon.com . Я преобразовал отзывы с 1 звездой в отрицательные и 5 звезд в положительные. Соотношение отрицательных и положительных отзывов составляет 1:5. Собранные обзоры преобразуются в матрицу терминов документа, и несколько объектов были выбраны с использованием метода выбора подмножества признаков хи-квадрат и некоторых предложенных нами методов выбора объектов. Для классификации выборок мы использовали некоторые алгоритмы классификации, такие как MLP, SVM, DT и т. Д. Я сообщил о результате в рамках 10-кратной перекрестной проверки.
Чтобы сравнить наши результаты с базовыми, рецензенты попросили меня выполнить человеческую оценку для сравнения наших результатов. Как выполнить аннотацию здесь? Следует ли нам использовать аннотаторы для случайно выбранных выборок для сравнения наших результатов или мы должны выполнять аннотацию для всех выборок?
Мой профессор просит выполнить аннотацию всех выборок, а затем разделить набор данных на 10 сгибов, а затем вычислить среднее значение точности 10-кратного ответа аннотаторов на сравнение нашего результата?
Я нашел некоторую литературу, они выполняют аннотации для случайно выбранных образцов. Любая ссылка, предложенная в этом отношении, была бы для меня весьма полезной. Заранее спасибо.
Комментарии:
1. прочитайте о
mechanical turk
том, что от вас спрашивают. предупреждение о спойлере: вам понадобятся деньги, чтобы угостить своих друзей.2. Я думаю, они спрашивают об этом, потому что, поскольку вы создали этот набор данных, нет другой точки отсчета, нет достоверности или стороннего метода для сравнения. Если вы не можете заставить людей выполнять эту задачу, возможно, вам следует запустить свой метод над другими общедоступными наборами данных, для которых во многих статьях уже представлены результаты.
3. Но я хочу знать, нужно ли мне выполнять аннотации для всех выборок или случайно выбранных выборок.