Каскадирование для нетерпеливого зависания примера TFIDF

#hadoop #cascading

#hadoop #каскадирование

Вопрос:

Я пытаюсь работать с каскадированием для создания и выполнения сложных рабочих процессов обработки данных в локальном кластере Hadoop.

Я хочу создать вектор TFIDF, чтобы я мог применять к нему алгоритмы машинного обучения, такие как NaiveBayes, используя платформу Apache Spark.

Проблема в том, что после того, как я создаю jar и запускаю его с помощью следующих команд, программа зависает. Вот файл журнала.

Вы можете найти исходники здесь. Соответствующий исходный код находится в части 6.

Спасибо!

Ответ №1:

Я нашел проблему. Узлы кластера были неработоспособны, но в журнале это не отображается, и каскадирование зависает, поскольку его задача НЕ НАЗНАЧЕНА.

введите описание изображения здесь

Итак, чтобы решить проблему, вам нужно исправить работоспособность узлов, в моем случае мне просто нужно было исправить каталог контейнеров hadoop-yarn, а также его локальный каталог namenode.

Вы можете столкнуться с другими ошибками, поэтому я предлагаю вам проверить свои файлы журналов hadoop и администратора WebUI на наличие узлов Hadoop.