#apache-spark #pyspark #spark-streaming #amazon-kinesis
Вопрос:
мы используем потоковую передачу pyspark и spark для использования записей из потока kinesis. код выглядит примерно так :
streams = [
KinesisUtils.createStream(
ssc,
app_name,
stream_name,
endpoint_url,
region_name,
InitialPositionInStream.TRIM_HORIZON,
conf["stream"]["checkpoint_interval"],
decoder=gzip.decompress,
)
for _ in range(number_of_streams)
]
ssc.union(*streams).pprint()
выходные данные содержат столбец данных и некоторые столбцы метаданных, которые были добавлены в полезную нагрузку.
столбец метаданных пуст.
вопрос в том, должны ли мы получать столбцы метаданных по умолчанию : такие как порядковый номер и ключ раздела.
а если нет, то есть ли способ получить их с помощью pyspark? использование spark 2.4.4 emr 5.27 и spark-streaming-kinesis-asl_2.11-2.4.4.jar
Спасибо.