Как пропустить строки, содержащие больше столбцов, чем количество столбцов заголовка из файла csv в spark

#dataframe #pyspark

#фрейм данных #pyspark

Вопрос:

Например:

Идентификатор, имя, отдел

1, Smith, HR

2, Джон, ИТ, Комментарии

3, Стивен, Продажи

Мне нужно игнорировать номер строки 2 здесь и читать только первую и последнюю записи.

Заранее спасибо…

Ответ №1:

Если вы просто хотите пропустить искаженные записи, вы можете использовать DROPMALFORMED mode .

Пример:

 spark
 .read
 .option("header", true)
 .option("mode", "DROPMALFORMED")
 .csv(path)