преобразование очень большого raw-файла в csv-файл, tf.data.Набор данных

#linux #csv #tensorflow2.0 #tensorflow-datasets

#linux #csv #тензорный поток 2,0 #tensorflow-наборы данных

Вопрос:

У меня есть файл 200GB .raw с табуляцией в качестве разделителя столбцов (перед первым столбцом тоже есть вкладка). Я хочу преобразовать этот файл в файл .csv с запятой в качестве разделителя столбцов. Я использовал следующие команды:

 sed ‘s/t/,/g’ File1.raw > File2.csv
 

Однако, когда я хочу прочитать этот csv-файл (File2.csv) с помощью tf.data.Набор данных (https://colab.research.google.com/github/adammichaelwood/tf-docs/blob/csv-feature-columns/site/en/r2/tutorials/load_data/csv.ipynb#scrollTo=sUtoed20cRJJ) , затем я получаю эту ошибку:

 raise ValueError("Cannot have duplicate column names.")
ValueError: Cannot have duplicate column names.
 

Я уверен, что мой файл .raw в порядке. Как я могу преобразовать файл File1.raw в файл File2.csv с запятой в качестве разделителя столбцов без создания дублированных столбцов?

Комментарии:

1. Вставьте первую строку из каждого файла в текст вашего вопроса. Скорее всего, существует имя столбца со встроенной запятой или другая ошибка форматирования. Используйте {} инструмент из меню «Правка» при выделенном мышью тексте для форматирования как code/data/requiredOutput/ExactErrMsgs . Желаю удачи.

2. @hsn15051 используйте это, чтобы удалить дублирование из последнего файла, может быть, что-то не так с инструментом tf, сценарий для удаления дублирования: awk ‘!seen[$ 0] ‘ File2.csv> File2.csv.tmp amp;amp; mv File2.csv.tmp File2.csv (илилюбые другие сценарии, которые удаляют общие имена столбцов)