Почему spacy нужна начальная и конечная позиции в аннотации тегов

#spacy

#spacy

Вопрос:

Я обучал распознавание объектов с именем spacy с помощью моего пользовательского набора данных. У меня на уме один вопрос: зачем spacy нужна начальная и конечная позиции тега в аннотации?

 [
    ('I want apples', {'entities': [(2, 5, 'COMMAND'), (7, 12, 'FRUIT')]})
]
  

Заранее спасибо.

Ответ №1:

Потому что именованным объектам разрешено охватывать несколько токенов, например:

 ("Who is Shaka Khan?", {"entities": [(7, 17, "PERSON")]}),
  

«Шака Хан» будет одним объектом с меткой PERSON.

Вместо этого, если бы вы аннотировали

 ("Who is Shaka Khan?", {"entities": [(7, 12, "PERSON")]}),
  

тогда только «Shaka» будет помеченным объектом.

Комментарии:

1. Привет @sofie-vl, большое тебе спасибо. Хорошее объяснение. Я находил разницу между традиционным набором данных для тегов объектов с помощью набора данных spacy. традиционный набор данных для тегов последовательности содержит только слово, формат тега. Еще раз спасибо. с уважением