#pyspark #amazon-dynamodb #aws-glue #aws-glue-spark
Вопрос:
Таблица dynamodb экспортируется в s3, и обходчик aws glue сканирует данные s3. Задания Aws glue берут исходный код из сканированных данных, а вот схема из printSchema() на aws glue:
| |-- updatedAt: struct
| | |-- S: string
| |-- lotId: struct
| | |-- NULL: boolean
| | |-- S: string
Исходная таблица dynamodb содержит эти значения, если рассматривать ее как DynamoDBJSON
если значение равно нулю:
"lotId": {
"NULL": true
},
если значение является строковым:
"lotId": {
"S": "id4534"
},
Как написать скрипт aws glue, чтобы сохранить значение в виде строки или нуля, следуя приведенному выше примеру? Может ли тип данных быть динамическим логическим и строковым одновременно?