#hadoop #connection #hdfs #kettle
#hadoop #подключение #hdfs #чайник
Вопрос:
Я использую средство интеграции данных pentaho (Kettle PDI 5.0) и одномодовую версию virtualbox Cloudera CDH4 (версия 4.6).
Я пытаюсь запустить руководство, загружающее данные в HDFS.
Но проблема в том, что я не могу подключиться к CDH4 HDFS: Kettle выдает мне сообщение об ошибке, что он не может подключиться к HDFS.
Я настроил active.hadoop.configuration на cdh42 и запускаю файл spoon.bat из Windows 8.1
Пожалуйста, помогите, если кто-нибудь знает, как настроить соединение.
Ответ №1:
Для настройки подключения к Hadoop вам необходимо предоставить правильные файлы конфигурации в /plugins/pentaho-big-data-plugin/hadoop-configuration/YOUR_CONF/. Вы должны хотя бы предоставитьcore-site.xml.
Затем вам следует отредактировать plugin.properties в /plugins/pentaho-big-data-plugin/ и установить active.hadoop.configuration=YOUR_CONF
.
Я не упомянул YOUR_CONF без причины: скорее всего, CDH 4.2 и 4.6 несовместимы! Поэтому вам нужно создать свой собственный каталог конфигурации и предоставить библиотеки для него. Большинство из них поступают из папок hadoop и его компонентов lib, а другие предоставляются pentaho, такие как pentaho-hadoop-shims-hadoop-*.jar.
Также рассмотрите возможность чтения конфигураций Hadoop.
Ответ №2:
Итак, коллега, часто отсутствие подключения к каталогу может быть связано с пользователем. при использовании haddop с pentaho, потому что необходимо, чтобы пользователь, который запускает pentaho, был тем же пользователем, у которого есть ядра hadoop.
например, если у вас есть пользователь с именем jluciano в hadoop, вам нужно проверить пользователя в системе, который использует то же имя, а затем запустить процесс в pentaho, чтобы доступ к каталогу выполнялся :).
Протестируйте его там, и что-нибудь предупредит вас
Кроме того, попробуйте подключиться с именем хоста, а затем с IP