#hadoop #cloud #mapreduce #hdfs
#hadoop #облако #mapreduce #hdfs
Вопрос:
Я ищу некоторый обзор производительности Hadoop (кластер из 300-600 блоков, обычное оборудование), особенно по следующим аспектам:
- Высокая одновременность чтения и записи
- Сканирование веб-страниц
- Mapreduce, параллельные вычисления
- Инвертированный индекс
Ответ №1:
Это не конкретный вопрос, возможно, именно поэтому никто не ответил до сих пор. Производительность в кластере 3-600 узлов лучше всего анализировать с помощью тестов.
Тем не менее, я нашел несколько действительно интересных статей, касающихся Hadoop и его реализаций в производстве:
- Архитектура Hadoop и ее использование в Facebook
- Как Rackspace теперь использует MapReduce и Hadoop для запроса терабайт данных
- Некоторые тесты приведены в статье Hadoop сортирует петабайт за 16,25 часа и терабайт за 62 секунды
- Кроме того, действительно интересный блог, связанный с Hadoop
- Еще одна статья, связанная с facebook и hadoop, — это Hive — хранилище данных размером в петабайт, использующее Hadoop
Я надеюсь, что эти ссылки помогут вам начать и предоставят всю необходимую информацию.