как получить порядковый номер записи kinesis при использовании потоковой передачи pyspark и spark

#apache-spark #pyspark #spark-streaming #amazon-kinesis

Вопрос:

мы используем потоковую передачу pyspark и spark для использования записей из потока kinesis. код выглядит примерно так :

   streams = [
        KinesisUtils.createStream(
            ssc,
            app_name,
            stream_name,
            endpoint_url,
            region_name,
            InitialPositionInStream.TRIM_HORIZON,
            conf["stream"]["checkpoint_interval"],
            decoder=gzip.decompress,
        )
        for _ in range(number_of_streams)
    ]

    ssc.union(*streams).pprint()

 

выходные данные содержат столбец данных и некоторые столбцы метаданных, которые были добавлены в полезную нагрузку.

столбец метаданных пуст.

вопрос в том, должны ли мы получать столбцы метаданных по умолчанию : такие как порядковый номер и ключ раздела.

а если нет, то есть ли способ получить их с помощью pyspark? использование spark 2.4.4 emr 5.27 и spark-streaming-kinesis-asl_2.11-2.4.4.jar

Спасибо.