Формат даты проверяет неправильный год в pyspark

#apache-spark #datetime #pyspark #date-format

Вопрос:

У меня есть столбец с форматом 'yyyy/MM/dd HH:mm:ss' , и в нем также есть несколько неправильных записей. Я хочу проверить и удалить неправильные записи, но когда я проверяю, функция также принимает годы с пятью значениями? Почему он принимает пять ценностей? Каков правильный формат?

 from pyspark.sql import functions as F,Window
df = sc.parallelize([['2020/12/24 04:30:30'],
                     ['2021/02/24 05:30:30'],
                     ['21204/01/20 11:30:50'],
                     ['12/12/2020  12:30:40']]).toDF(["Date"])

df.show()
 -------------------- 
|                Date|
 -------------------- 
| 2020/12/24 04:30:30|
| 2021/02/24 05:30:30|
|21204/01/20 11:30:50|
|12/12/2020  12:30:40|
 -------------------- 

df = df.filter(F.to_date('Date','yyyy/MM/dd HH:mm:ss').isNotNull()) 
df.show()
 

Вывод для правильных записей

  -------------------- 
|                Date|
 -------------------- 
| 2020/12/24 04:30:30|
| 2021/02/24 05:30:30|
|21204/01/20 11:30:50|
 -------------------- 
 

Ожидаемый Результат:

  -------------------- 
|                Date|
 -------------------- 
| 2020/12/24 04:30:30|
| 2021/02/24 05:30:30|
 --------------------