#amazon-web-services #aws-glue
#amazon-web-services #aws-клей
Вопрос:
Потребуется ваша помощь, пожалуйста. У меня есть файлы raw data json, содержащие много файлов в структуре папок формата timestamp. Когда я запускаю поисковый робот, он может обнаружить 116 столбцов, но не может обнаружить 5 столбцов, которые присутствуют в файлах, но имеют очень низкую частоту. Может кто-нибудь сообщить мне, как я могу обнаружить 5 столбцов, которых там нет.
Структура файла :
{"serialNumber":"PNRF","delivered":1601656317296,"timestamp":"1601656317","ecd4":"-5","pt":"PTR"}
{"serialNumber":"PNRT","delivered":1601656317296,"timestamp":"1601656317","ecd4":"-5","pt":"PIF0"}
Ответ №1:
Я столкнулся с аналогичными проблемами с Glue crawler. У вас есть два варианта решения этой проблемы:
- Добавьте недостающие столбцы вручную через базы данных -> Таблицы -> Щелкните таблица -> Изменить схему -> Добавить столбец. Вы увидите обновленную таблицу.
- Если перед каталогизацией выполняется этап обработки данных, добавьте недостающие столбцы во все записи со значением None.
Оба эти решения тестируются в проекте.