как обрабатывать токен BERT "UNK" в прогнозе вывода

#json #bert-language-model

Вопрос:

Я обучаю предварительно обученную модель BERT на своих данных.
Я пытаюсь создать Json, содержащий два списка:
первый: список завершает прогнозирование модели (желаемое значение)
второй: список истинного значения

но в первом списке много токенов [‘UNK’]
, что-то вроде этого:

почему это происходит? и как я могу это решить?

этот тег UNK делает результат прогнозирования близким к нулю:( потому что уровень точности основан на точном совпадении true и desire, и это UNKs делает desire разным…

что я могу для этого сделать?

Ответ №1:

в конечном счете, я обнаружил проблему … версия Bert, которую я использовал, была адаптирована к персидскому языку, и я не прошел процесс нормализации персидского языка полностью 🙂 после завершения этого этапа и некоторой отладки в конфигурации Bert, это решилось 🙂

Вопрос:

Ответ №1:

Вам также может понравиться

Как настроить Amazon timestream на php?

Выгрузить все загруженные пакеты

Как добавить распознаватели жестов к нескольким кнопкам?