Как вычислить временные данные, сгенерированные заданием Hadoop MapReduce

#hadoop #mapreduce #hdfs #cloudera #mapr

#hadoop #mapreduce #hdfs #cloudera #mapr

Вопрос:

Существует ли общая формула или оценка наилучшей практики для объема пространства HDFS, которое следует оставить неиспользованным для временных данных, сгенерированных заданием MapReduce? Как это меняется для разных поставщиков, таких как Cloudera и MapR? У меня есть несколько заданий, которые увеличили мой кластер с 20 ГБ до 60 ГБ и обратно для небольших тестовых заданий, когда я настраиваю сценарий Pig. Я задаю этот вопрос для планирования кластера.

Какие факторы влияют на это определение? Я предполагаю, что количество редукторов играет роль в количестве сгенерированных временных данных, особенностях задания (например, если у меня есть сценарий Pig с 20 операторами, я заметил, что временные данные не удаляются до тех пор, пока не будут выполнены все 20 операторов; если я хочу минимизировать временные данные, я должен разделить 20 операторов на 3 файла сценариев и запускать каждый последовательно) и другие факторы.