#algorithm #machine-learning
#алгоритм #машинное обучение
Вопрос:
Я также могу реализовать idf без log, в чем смысл использования log в idf?
Like -: idf = log(количество документов / # of docs в этом слове отображается)
Но почему мы не можем использовать idf = (количество документов / # of docs в этом слове появляется)
Комментарии:
1. Пожалуйста, уточните ваш язык программирования в тегах
Ответ №1:
Это происходит потому, что IDF будет умножен на термин frequency TF. Для очень распространенных слов IDF, скорее всего, будет равен 1, если не используется log, так что даже эти распространенные слова в конечном итоге будут весить больше, чем действительно редкие и полезные слова. С log
IDF может стать 0 для наиболее распространенных слов, поэтому их эффективный tf-idf также становится 0, и их можно игнорировать.