как обрабатывать токен BERT «UNK» в прогнозе вывода

#json #bert-language-model

#json #bert-language-model

Вопрос:

Я обучаю предварительно обученную модель BERT на своих данных.
Я пытаюсь создать Json, содержащий два списка:
первый: список завершает прогнозирование модели (желаемое значение)
второй: список истинного значения

но в первом списке много токенов [‘UNK’]
, что-то вроде этого:
введите описание изображения здесь
почему это происходит? и как я могу это решить?

этот тег UNK делает результат прогнозирования близким к нулю:( потому что уровень точности основан на точном совпадении true и desire, и это UNKs делает desire разным…

что я могу для этого сделать?

Ответ №1:

в конечном счете, я обнаружил проблему … версия Bert, которую я использовал, была адаптирована к персидскому языку, и я не прошел процесс нормализации персидского языка полностью 🙂 после завершения этого этапа и некоторой отладки в конфигурации Bert, это решилось 🙂