Поисковый робот AWS не может прочитать все столбцы

#amazon-web-services #aws-glue

#amazon-web-services #aws-клей

Вопрос:

Потребуется ваша помощь, пожалуйста. У меня есть файлы raw data json, содержащие много файлов в структуре папок формата timestamp. Когда я запускаю поисковый робот, он может обнаружить 116 столбцов, но не может обнаружить 5 столбцов, которые присутствуют в файлах, но имеют очень низкую частоту. Может кто-нибудь сообщить мне, как я могу обнаружить 5 столбцов, которых там нет.

Структура файла :

 {"serialNumber":"PNRF","delivered":1601656317296,"timestamp":"1601656317","ecd4":"-5","pt":"PTR"} 
{"serialNumber":"PNRT","delivered":1601656317296,"timestamp":"1601656317","ecd4":"-5","pt":"PIF0"}
  

Ответ №1:

Я столкнулся с аналогичными проблемами с Glue crawler. У вас есть два варианта решения этой проблемы:

  • Добавьте недостающие столбцы вручную через базы данных -> Таблицы -> Щелкните таблица -> Изменить схему -> Добавить столбец. Вы увидите обновленную таблицу.
  • Если перед каталогизацией выполняется этап обработки данных, добавьте недостающие столбцы во все записи со значением None.

Оба эти решения тестируются в проекте.