Можем ли мы использовать преобразователи предложений для встраивания неанглийских предложений без меток?

#nlp #word-embedding #doc2vec #bert-language-model #sentence-similarity

#nlp #встраивание слов #doc2vec #bert-language-model #предложение-сходство

Вопрос:

Я пытался использовать этот проект :

https://github.com/UKPLab/sentence-transformers

для встраивания неанглийских предложений язык не является языком, на котором говорит человек, его машинный язык (x86)

но проблема в том, что я не могу найти простой пример, где показано, как я могу встраивать предложения с использованием пользовательского набора данных без каких-либо меток или значений сходства предложений.

в принципе, у меня есть массив списков предложений без каких-либо меток для предложений или значений подобия для них, и я хочу встраивать их в векторы таким образом, чтобы это наилучшим образом сохраняло семантику предложения, до сих пор я использовал word2vec и doc2vec с использованием библиотеки gensim, поэтому я хотел попробовать этот метод, чтобы увидеть, лучше ли он?

(также приветствуются любые другие предложения по методам использования)

Комментарии:

1. Многие из этих языковых моделей не требуют меток / оценок сходства, кроме внутренних корреляций токенов в данных. (Например, алгоритм «Вектор абзаца» Doc2Vec использует только слова, которые присутствуют в каждом тексте.) Конечно, машинный язык не является естественным языком, и многие из тех же полезных шаблонов не будут отображаться. «Семантика», такая, какая она есть, будет как более строгой в некоторых отношениях, так и более узкой / абстрактно удаленной от узнаваемых понятий в других. Но некоторые такие работы показали некоторую ценность. Итак, вы пробовали это, чтобы увидеть, работает ли это для ваших намеченных целей?

2. @gojomo до сих пор я использовал word2vec с векторами усреднения / добавления и doc2vec, word2vec работал лучше, но все еще не так хорошо, искал новые методы, чтобы попробовать внедрить эти «последовательности», есть предложения?

3. Кто знает, что касается машинного кода? Это имеет некоторое сходство с естественным языком, но также и существенные различия, поэтому вы должны попробовать и оценить, насколько хорошо это работает для ваших конкретных конечных целей. (Я не видел упоминания ваших конкретных конечных целей: это вопрос академического любопытства? Конкретное коммерческое применение? Другое …?) Я полагаю, что эти преобразователи с более глубокой сетью, вероятно, лучше учитывают отношения на более дальнем расстоянии и эффекты порядка токенов, чем простые контекстные окна word2vec и doc2vec.

4. @gojomo Я использую это для поиска бинарных клонов, проблема в том, что я даже не знаю, что попробовать, я знал только word2vec и doc2vec. Я в основном ищу какие-то новые методы, чтобы попробовать, чтобы увидеть, работают ли они лучше или нет.

5. Что означает «поиск двоичного клона»? Каковы предшествующие современные подходы? Если вы попробуете sentence-transformers в репозитории, на который вы ссылались в своем вопросе, будут ли результаты стандартных оценок лучше или хуже, чем в ваших предыдущих тестах?