Как объединить элементы tf.data.Набор данных?

#python #tensorflow #named-entity-recognition #tf.data.dataset

#python #тензорный поток #распознавание именованных объектов #tf.data.dataset

Вопрос:

Краткое предупреждение: это не вопрос новичка о tf.data.Dataset.concat() , tf.data.Dataset.zip() , или tf.data.Dataset.interleave() . Речь идет об объединении строк одного набора данных, а не о слиянии двух отдельных наборов данных.

Я хотел создать модель распознавания именованных объектов (NER) в TensorFlow. Я нашел этот набор данных для этой задачи. Но каждое слово находится в отдельной строке набора данных, и я хотел объединить все слова в предложении в их собственную строку (это было бы больше похоже на [Sentence 1, Sentence 2, ...] вместо [Sentence 1, Sentence 1, Sentence 1, ...] ) Я не знаю, должен ли я делать это таким образом, но я не знаю, как объединить слова в предложении.строки набора данных. Я действительно пытался, но, как вы можете видеть в этой сути, это дает мне странную ошибку. Как бы мне объединить строки?

Ответ №1:

Да, для Named Entity Recognition (NER) dataset выглядит точно так же, как в этом наборе данных. В наборе данных каждое слово связано с человеком, местоположением, организацией, временем и т. Д.
Для NER приведенный выше набор данных можно использовать как есть без каких-либо изменений в строках или столбцах. Если вы все еще хотите объединить / объединить строки, пожалуйста, сообщите нам, мы поможем вам решить. Спасибо

Комментарии:

1. Мне каким-то образом удалось сделать это без слияния строк (понятия не имею, как). Но это было бы полезно для других, если есть способ объединить строки a tf.data.Dataset .