Ищу общий обзор по Hadoop

#hadoop #cloud #mapreduce #hdfs

#hadoop #облако #mapreduce #hdfs

Вопрос:

Я ищу некоторый обзор производительности Hadoop (кластер из 300-600 блоков, обычное оборудование), особенно по следующим аспектам:

Высокая одновременность чтения и записи
Сканирование веб-страниц
Mapreduce, параллельные вычисления
Инвертированный индекс

Ответ №1:

Это не конкретный вопрос, возможно, именно поэтому никто не ответил до сих пор. Производительность в кластере 3-600 узлов лучше всего анализировать с помощью тестов.

Тем не менее, я нашел несколько действительно интересных статей, касающихся Hadoop и его реализаций в производстве:

Архитектура Hadoop и ее использование в Facebook
Как Rackspace теперь использует MapReduce и Hadoop для запроса терабайт данных
Некоторые тесты приведены в статье Hadoop сортирует петабайт за 16,25 часа и терабайт за 62 секунды
Кроме того, действительно интересный блог, связанный с Hadoop
Еще одна статья, связанная с facebook и hadoop, — это Hive — хранилище данных размером в петабайт, использующее Hadoop

Я надеюсь, что эти ссылки помогут вам начать и предоставят всю необходимую информацию.

Вопрос:

Ответ №1:

Вам также может понравиться

Превращение многоклассового классификатора в иерархический многоклассовый классификатор

Использование sed через ssh для добавления элемента в список

Как создать ссылку на значок, которая функционирует так же, как кнопка отправки в Laravel 5.7?