#dataframe #pyspark
#фрейм данных #pyspark
Вопрос:
Например:
Идентификатор, имя, отдел
1, Smith, HR
2, Джон, ИТ, Комментарии
3, Стивен, Продажи
Мне нужно игнорировать номер строки 2 здесь и читать только первую и последнюю записи.
Заранее спасибо…
Ответ №1:
Если вы просто хотите пропустить искаженные записи, вы можете использовать DROPMALFORMED
mode .
Пример:
spark
.read
.option("header", true)
.option("mode", "DROPMALFORMED")
.csv(path)