как найти сходство между двумя документами

#python-3.x #spacy

#python-3.x #spacy

Вопрос:

Я попытался использовать функцию подобия spacy , чтобы получить наилучшее совпадающее предложение в документе. Однако это не удается для маркированных пунктов, потому что он рассматривает каждый маркер как предложение, а маркеры являются неполными предложениями (например, предложение 1 «пароль должен быть длиной не менее 8 символов, предложение 2 в виде маркера «8 символов»). Он не знает, что ссылается на пароль, и поэтому мое сходство очень низкое.

Ответ №1:

Мне кажется, что вам нужно выполнить дополнительную обработку текста, прежде чем пытаться использовать сходство. Если вы хотите, чтобы маркированные пункты считались частью предложения, вам необходимо изменить свой конвейер spacy, чтобы понять, как это сделать.

Комментарии:

1. Рассматриваются маркеры, но дело в том, что он не понимает, на кого ссылается 8 символов, поэтому я подумал о том, чтобы найти заголовок абзаца и заменить на него маркеры. Я нашел заголовки, используя документы python, но он не считывает маркеры при чтении документа, есть ли способ, которым я могу прочитать его с помощьюдокументы python? Есть ли какой-либо способ, которым я могу найти заголовки абзаца в spacy? Есть ли лучший подход к этому

Ответ №2:

Рассматриваются маркеры, но дело в том, что он не понимает, на кого ссылается 8 символов, поэтому я подумал о том, чтобы найти заголовок абзаца и заменить на него маркеры

Я нашел заголовки, используя документы python, но он не читает маркеры при чтении документа, есть ли способ, которым я могу прочитать его, используя документы python?

Есть ли какой-либо способ, которым я могу найти заголовки абзаца в spacy?

Есть ли лучший подход к этому

Ответ №3:

На самом деле вы можете изменить sentencizer spaCy, чтобы распознавать маркированные точки как границы предложений, но более простым способом было бы использовать вместо этого библиотеку sentence-transformers . В этом случае не имеет значения, есть ли у вас маркированные пункты в вашем предложении.