#python #tensorflow #named-entity-recognition #tf.data.dataset
#python #тензорный поток #распознавание именованных объектов #tf.data.dataset
Вопрос:
Краткое предупреждение: это не вопрос новичка о
tf.data.Dataset.concat()
,tf.data.Dataset.zip()
, илиtf.data.Dataset.interleave()
. Речь идет об объединении строк одного набора данных, а не о слиянии двух отдельных наборов данных.
Я хотел создать модель распознавания именованных объектов (NER) в TensorFlow. Я нашел этот набор данных для этой задачи. Но каждое слово находится в отдельной строке набора данных, и я хотел объединить все слова в предложении в их собственную строку (это было бы больше похоже на [Sentence 1, Sentence 2, ...]
вместо [Sentence 1, Sentence 1, Sentence 1, ...]
) Я не знаю, должен ли я делать это таким образом, но я не знаю, как объединить слова в предложении.строки набора данных. Я действительно пытался, но, как вы можете видеть в этой сути, это дает мне странную ошибку. Как бы мне объединить строки?
Ответ №1:
Да, для Named Entity Recognition (NER)
dataset выглядит точно так же, как в этом наборе данных. В наборе данных каждое слово связано с человеком, местоположением, организацией, временем и т. Д.
Для NER приведенный выше набор данных можно использовать как есть без каких-либо изменений в строках или столбцах. Если вы все еще хотите объединить / объединить строки, пожалуйста, сообщите нам, мы поможем вам решить. Спасибо
Комментарии:
1. Мне каким-то образом удалось сделать это без слияния строк (понятия не имею, как). Но это было бы полезно для других, если есть способ объединить строки a
tf.data.Dataset
.