pentaho kettle не удается подключиться к cloudera cdh4 HDFS

#hadoop #connection #hdfs #kettle

#hadoop #подключение #hdfs #чайник

Вопрос:

Я использую средство интеграции данных pentaho (Kettle PDI 5.0) и одномодовую версию virtualbox Cloudera CDH4 (версия 4.6).

Я пытаюсь запустить руководство, загружающее данные в HDFS.

Но проблема в том, что я не могу подключиться к CDH4 HDFS: Kettle выдает мне сообщение об ошибке, что он не может подключиться к HDFS.

Я настроил active.hadoop.configuration на cdh42 и запускаю файл spoon.bat из Windows 8.1

Пожалуйста, помогите, если кто-нибудь знает, как настроить соединение.

Ответ №1:

Для настройки подключения к Hadoop вам необходимо предоставить правильные файлы конфигурации в /plugins/pentaho-big-data-plugin/hadoop-configuration/YOUR_CONF/. Вы должны хотя бы предоставитьcore-site.xml.

Затем вам следует отредактировать plugin.properties в /plugins/pentaho-big-data-plugin/ и установить active.hadoop.configuration=YOUR_CONF .

Я не упомянул YOUR_CONF без причины: скорее всего, CDH 4.2 и 4.6 несовместимы! Поэтому вам нужно создать свой собственный каталог конфигурации и предоставить библиотеки для него. Большинство из них поступают из папок hadoop и его компонентов lib, а другие предоставляются pentaho, такие как pentaho-hadoop-shims-hadoop-*.jar.

Также рассмотрите возможность чтения конфигураций Hadoop.

Ответ №2:

Итак, коллега, часто отсутствие подключения к каталогу может быть связано с пользователем. при использовании haddop с pentaho, потому что необходимо, чтобы пользователь, который запускает pentaho, был тем же пользователем, у которого есть ядра hadoop.

например, если у вас есть пользователь с именем jluciano в hadoop, вам нужно проверить пользователя в системе, который использует то же имя, а затем запустить процесс в pentaho, чтобы доступ к каталогу выполнялся :).

Протестируйте его там, и что-нибудь предупредит вас

Кроме того, попробуйте подключиться с именем хоста, а затем с IP