#hadoop
#hadoop
Вопрос:
Я хочу преобразовать неструктурированные данные в структурированные данные для упрощения анализа данных, поэтому я хочу знать, является ли PIG или HIVE лучшим. Если нет, то какой другой инструмент Hadoop можно использовать и как?
Ответ №1:
По моему опыту, наиболее сжатым, но статически типизированным и очень гибким является Scalding . Он надежный, лаконичный и функциональный.
Scalding — это проект Twitter с открытым исходным кодом, который находится поверх каскадирования. Каскадирование находится поверх Hadoop. Каскадирование выполняет определенные пользователем этапы и волшебным образом «каскадирует» их на как можно меньшее количество этапов MapReduce.
Эта страница в значительной степени доказывает, что Scalding — лучший API Hadoop:
https://github.com/twitter/scalding/wiki/Rosetta-Code
У Spark (технически это не технология Hadoop, на самом деле она намного лучше) теперь есть волшебный JsonRDD — вы предоставляете ему JSON-файлы, и он волшебным образом разработает схему.
Комментарии:
1. Я добавил больше деталей. @user993257
2. Ценю ваш ответ, но мне нужна технология Hadoop. Просто пример, который хранит неструктурированные данные в качестве входных и выходных структурированных данных.
3. Да, это технология Hadoop. Вам нужно будет уточнить, что вы подразумеваете под неструктурированным и что вы подразумеваете под структурированным, чтобы кто-нибудь мог ответить на этот вопрос.
4. Это именно то, что я пытаюсь сделать, я хочу связать большие данные с моделированием и имитацией, чтобы при этом модель принимала в качестве входных данных неструктурированные данные, например, электронную почту, сообщения в Твиттере, изображения, видео и т. Д., И в середине вышеуказанные данные будут структурированы, а другая модель займетэти структурированные данные и выводят их.
5. или просто любой рабочий метод или технология, которые могут структурировать любые неструктурированные данные, я найду способ связать это с тем, что я делаю. Спасибо