#cloudera-cdh
#cloudera-cdh
Вопрос:
Я использую дистрибутив cloudera для hadoop для выполнения заданий по сокращению карты в кластере с несколькими байтами peta. Я вижу, что некоторые карты застревают на 100%. Они отображаются как 100%, но продолжают выполняться. После большой задержки они, наконец, преуспевают, но это занимает много времени, например, иногда они занимают пару часов с момента, когда они отображаются как 100%.
Ответ №1:
Процент выполнения карты рассчитывается на основе считанных входных данных. Итак, если вы выполняете большую работу в своем mapper после чтения данных или чтения перед обработкой, вы будете видеть это чаще.