Как получить дату из последнего файла в корзине S3 с помощью pyspark

#python #amazon-s3 #pyspark

Вопрос:

У меня есть требование, чтобы в PySpark мне нужно было получить последнюю дату из файлов в s3.

Как узнать дату с помощью кода Pyspark?

Путь к файлам s3, примеры:

 "s3://bucketname/folderpath/2021/10/10/file.parquet, s3://bucketname/folderpath/2021/10/08/file.parquet, s3://bucketname/folderpath/2021/10/05/file.parquet, s3://bucketname/folderpath/2021/10/02/file.parquet"  

Вывод: Получите последний путь к дате файла из S3, выберите дату и назначьте переменную в пути.

Пример:

  • последний путь: s3://bucketname/folderpath/2021/10/10/file.parquet
  • Переменная даты: date = 20211010

Комментарии:

1. Куда ты направляешь Искру? Базы данных?

Ответ №1:

 file_paths = sc  .wholeTextFiles("s3://bucketname/folderpath/*/*/*/*.parquet")  .map(lambda x: x[0]).collect()  most_recent_file = max(file_paths)  Date_variable = most_recent_file.split("/")[4]     most_recent_file.split("/")[5]     most_recent_file.split("/")[6]  print(Date_variable)  Out: '20211010'