Извлечение всех атрибутов, включая отображенные в pyspark

#python #pyspark #apache-spark-sql #aws-glue

Вопрос:

Мне нужна помощь в выяснении того, как извлечь все атрибуты из схемы JSON после их применения к новым данным в PySpark.

Допустим, у меня есть образец файла JSON

 {  "name":"",  "age":"",  "email":"" }  

Я сохраняю схему этого файла для применения к новым данным. Пусть будут новые данные {"name":"abc","age":"45"} .

Теперь после применения схемы из вышеприведенного JSON мне нужно вытащить все сопоставленные и несопоставленные атрибуты, такие как {"name":"abc", "age":"45", "email":"") etc. В настоящее время я не могу вытащить «электронную почту». Как я могу использовать атрибуты по умолчанию из схемы? Я также не хочу явно определять это. Поскольку полезная нагрузка JSON огромна, и я хочу использовать все атрибуты, т. Е. Сопоставленные со схемой, и если атрибуты отсутствуют в новой полезной нагрузке, то этот атрибут должен быть пустой строкой. Как мне этого добиться?