#json #bert-language-model
#json #bert-language-model
Вопрос:
Я обучаю предварительно обученную модель BERT на своих данных.
Я пытаюсь создать Json, содержащий два списка:
первый: список завершает прогнозирование модели (желаемое значение)
второй: список истинного значения
но в первом списке много токенов [‘UNK’]
, что-то вроде этого:
почему это происходит? и как я могу это решить?
этот тег UNK делает результат прогнозирования близким к нулю:( потому что уровень точности основан на точном совпадении true и desire, и это UNKs делает desire разным…
что я могу для этого сделать?
Ответ №1:
в конечном счете, я обнаружил проблему … версия Bert, которую я использовал, была адаптирована к персидскому языку, и я не прошел процесс нормализации персидского языка полностью 🙂 после завершения этого этапа и некоторой отладки в конфигурации Bert, это решилось 🙂