#apache-spark #datetime #pyspark #date-format
Вопрос:
У меня есть столбец с форматом 'yyyy/MM/dd HH:mm:ss'
, и в нем также есть несколько неправильных записей. Я хочу проверить и удалить неправильные записи, но когда я проверяю, функция также принимает годы с пятью значениями? Почему он принимает пять ценностей? Каков правильный формат?
from pyspark.sql import functions as F,Window
df = sc.parallelize([['2020/12/24 04:30:30'],
['2021/02/24 05:30:30'],
['21204/01/20 11:30:50'],
['12/12/2020 12:30:40']]).toDF(["Date"])
df.show()
--------------------
| Date|
--------------------
| 2020/12/24 04:30:30|
| 2021/02/24 05:30:30|
|21204/01/20 11:30:50|
|12/12/2020 12:30:40|
--------------------
df = df.filter(F.to_date('Date','yyyy/MM/dd HH:mm:ss').isNotNull())
df.show()
Вывод для правильных записей
--------------------
| Date|
--------------------
| 2020/12/24 04:30:30|
| 2021/02/24 05:30:30|
|21204/01/20 11:30:50|
--------------------
Ожидаемый Результат:
--------------------
| Date|
--------------------
| 2020/12/24 04:30:30|
| 2021/02/24 05:30:30|
--------------------