#linux #csv #tensorflow2.0 #tensorflow-datasets
#linux #csv #тензорный поток 2,0 #tensorflow-наборы данных
Вопрос:
У меня есть файл 200GB .raw с табуляцией в качестве разделителя столбцов (перед первым столбцом тоже есть вкладка). Я хочу преобразовать этот файл в файл .csv с запятой в качестве разделителя столбцов. Я использовал следующие команды:
sed ‘s/t/,/g’ File1.raw > File2.csv
Однако, когда я хочу прочитать этот csv-файл (File2.csv) с помощью tf.data.Набор данных (https://colab.research.google.com/github/adammichaelwood/tf-docs/blob/csv-feature-columns/site/en/r2/tutorials/load_data/csv.ipynb#scrollTo=sUtoed20cRJJ) , затем я получаю эту ошибку:
raise ValueError("Cannot have duplicate column names.")
ValueError: Cannot have duplicate column names.
Я уверен, что мой файл .raw в порядке. Как я могу преобразовать файл File1.raw в файл File2.csv с запятой в качестве разделителя столбцов без создания дублированных столбцов?
Комментарии:
1. Вставьте первую строку из каждого файла в текст вашего вопроса. Скорее всего, существует имя столбца со встроенной запятой или другая ошибка форматирования. Используйте
{}
инструмент из меню «Правка» при выделенном мышью тексте для форматирования какcode/data/requiredOutput/ExactErrMsgs
. Желаю удачи.2. @hsn15051 используйте это, чтобы удалить дублирование из последнего файла, может быть, что-то не так с инструментом tf, сценарий для удаления дублирования: awk ‘!seen[$ 0] ‘ File2.csv> File2.csv.tmp amp;amp; mv File2.csv.tmp File2.csv (илилюбые другие сценарии, которые удаляют общие имена столбцов)