преобразование неструктурированных данных в структурированные данные с помощью Hadoop

#hadoop

#hadoop

Вопрос:

Я хочу преобразовать неструктурированные данные в структурированные данные для упрощения анализа данных, поэтому я хочу знать, является ли PIG или HIVE лучшим. Если нет, то какой другой инструмент Hadoop можно использовать и как?

Ответ №1:

По моему опыту, наиболее сжатым, но статически типизированным и очень гибким является Scalding . Он надежный, лаконичный и функциональный.

Scalding — это проект Twitter с открытым исходным кодом, который находится поверх каскадирования. Каскадирование находится поверх Hadoop. Каскадирование выполняет определенные пользователем этапы и волшебным образом «каскадирует» их на как можно меньшее количество этапов MapReduce.

Эта страница в значительной степени доказывает, что Scalding — лучший API Hadoop:

https://github.com/twitter/scalding/wiki/Rosetta-Code

У Spark (технически это не технология Hadoop, на самом деле она намного лучше) теперь есть волшебный JsonRDD — вы предоставляете ему JSON-файлы, и он волшебным образом разработает схему.

Комментарии:

1. Я добавил больше деталей. @user993257

2. Ценю ваш ответ, но мне нужна технология Hadoop. Просто пример, который хранит неструктурированные данные в качестве входных и выходных структурированных данных.

3. Да, это технология Hadoop. Вам нужно будет уточнить, что вы подразумеваете под неструктурированным и что вы подразумеваете под структурированным, чтобы кто-нибудь мог ответить на этот вопрос.

4. Это именно то, что я пытаюсь сделать, я хочу связать большие данные с моделированием и имитацией, чтобы при этом модель принимала в качестве входных данных неструктурированные данные, например, электронную почту, сообщения в Твиттере, изображения, видео и т. Д., И в середине вышеуказанные данные будут структурированы, а другая модель займетэти структурированные данные и выводят их.

5. или просто любой рабочий метод или технология, которые могут структурировать любые неструктурированные данные, я найду способ связать это с тем, что я делаю. Спасибо