#python #amazon-s3 #pyspark
Вопрос:
У меня есть требование, чтобы в PySpark мне нужно было получить последнюю дату из файлов в s3.
Как узнать дату с помощью кода Pyspark?
Путь к файлам s3, примеры:
"s3://bucketname/folderpath/2021/10/10/file.parquet, s3://bucketname/folderpath/2021/10/08/file.parquet, s3://bucketname/folderpath/2021/10/05/file.parquet, s3://bucketname/folderpath/2021/10/02/file.parquet"
Вывод: Получите последний путь к дате файла из S3, выберите дату и назначьте переменную в пути.
Пример:
- последний путь:
s3://bucketname/folderpath/2021/10/10/file.parquet
- Переменная даты:
date = 20211010
Комментарии:
1. Куда ты направляешь Искру? Базы данных?
Ответ №1:
file_paths = sc .wholeTextFiles("s3://bucketname/folderpath/*/*/*/*.parquet") .map(lambda x: x[0]).collect() most_recent_file = max(file_paths) Date_variable = most_recent_file.split("/")[4] most_recent_file.split("/")[5] most_recent_file.split("/")[6] print(Date_variable) Out: '20211010'