#language-detection #cld2 #cld3
#определение языка #cld2 #cld3
Вопрос:
Моя модель определения языка cld2 (langID) возвращает для входного предложения следующие значения для классификации
{ reliable: true,
textBytes: 181,
languages:
[ { name: 'ITALIAN', code: 'it', percent: 61, score: 774 },
{ name: 'ENGLISH', code: 'en', percent: 38, score: 1573 } ],
chunks:
[ { name: 'ITALIAN', code: 'it', offset: 0, bytes: 116 },
{ name: 'ENGLISH', code: 'en', offset: 116, bytes: 71 } ] }
где textBytes
представляет размер входного текста, percent
распределение code
в предложении, в то время как score
является показателем качества определения (чем оно меньше, тем оно лучше).
Тем не менее, в совершенно новой нейронной сети CLD3 результатом классификации является просто точность (то есть значение вероятности между 0 и 1), поэтому, как
println(ld.getCode(0))
println(ld.getScore(0))
en
0.99
Я хотел бы выяснить, как преобразовать показатель CLD2 в значения вероятностей, чтобы сравнить результаты с новой моделью CLD3.
Комментарии:
1. Лорето, дорогой, просто свяжись со мной, и я дам тебе контакты исследователей.
2. Ссылка на проблему: github.com/google/cld3/issues/24
3. Это было бы потрясающе, спасибо тебе, Адам.
4. @AdamBittlingmayer, насколько я понимаю, в
CDL2
эти значения вероятностей находятся внутри здесь: github.com/dachev/node-cld/issues/52