#amazon-web-services #apache-spark #amazon-s3 #aws-glue
Вопрос:
У меня есть пример использования, когда я пытаюсь прочитать csv-файл, в котором один из столбцов, скажем, почтовый индекс, считывается как целое число. Но, очевидно, это не может быть правильным, потому что некоторые почтовые индексы имеют начальный ноль, и он обрезается и выводится как целое число. В этом случае почтовый индекс должен быть строковым типом данных.
Итак, два вопроса здесь,
- Как я могу применить тип данных для определенного столбца ? ( Я думаю, что мне, возможно, придется запустить искатель в первый раз, а затем создать схему, которую я перезапишу, а затем настрою искатель, чтобы не обновлять предыдущую схему. Пожалуйста, исправьте, если я ошибаюсь или если есть лучший способ.)
- Как я могу заставить обходчик клея считывать все столбцы как строки ? (это мой предпочтительный вариант, так как это позволит использовать CI/CD и полную автоматизацию без какого-либо ручного вмешательства)
Комментарии:
1. Я не хочу никакого ручного вмешательства для чтения файла (по причине, о которой я упоминал в № 2 выше). Тем не менее, если искатель выводит все столбцы как строки, это работает для меня. Но я не знаю, как это сделать.