#python #pyspark #apache-spark-sql #aws-glue
Вопрос:
Мне нужна помощь в выяснении того, как извлечь все атрибуты из схемы JSON после их применения к новым данным в PySpark.
Допустим, у меня есть образец файла JSON
{ "name":"", "age":"", "email":"" }
Я сохраняю схему этого файла для применения к новым данным. Пусть будут новые данные {"name":"abc","age":"45"}
.
Теперь после применения схемы из вышеприведенного JSON мне нужно вытащить все сопоставленные и несопоставленные атрибуты, такие как {"name":"abc", "age":"45", "email":"")
etc. В настоящее время я не могу вытащить «электронную почту». Как я могу использовать атрибуты по умолчанию из схемы? Я также не хочу явно определять это. Поскольку полезная нагрузка JSON огромна, и я хочу использовать все атрибуты, т. Е. Сопоставленные со схемой, и если атрибуты отсутствуют в новой полезной нагрузке, то этот атрибут должен быть пустой строкой. Как мне этого добиться?