Подключение кластера Databricks к локальной машине (AWS)

#amazon-web-services #pyspark #databricks

#amazon-веб-сервисы #пыспарк #базы данных

Вопрос:

Я хочу подключиться к кластеру Databricks (AWS) со своего локального компьютера, но я хочу выполнить весь код в кластере. С помощью Databricks Connect в кластере выполняется только код spark. Я ищу альтернативное решение. Интерпретатор SSH или что-то в этом роде. Я работаю с PyCharm (IDE).

Ответ №1:

Я бы пошел с таким подходом (но вам нужно написать небольшой скрипт для вашей IDE):

  • вы совершаете какой-то поздний завтрак в git (например, постановка)
  • ваша среда IDE выполняет команду cli databricks «обновление репозиториев databricks», которая выполнит вытягивание
  • ваша среда IDE выполняет команду задания cli databricks для запуска ноутбука из репозитория

Интерфейс командной строки Databricks может быть выполнен как Rest Api, bash/cmd или может быть импортирован в виде sdk на язык программирования

Комментарии:

1. Я хочу использовать это для локальных тестов, я не знаю, что выполнять свой код при фиксации.

2. Или, может быть, я действительно не могу понять, что ты хочешь сказать.

3. Но вы написали, что хотите выполнить его непосредственно на базах данных с некоторой ветвью разработки в репозиториях, это возможно

4. Я хочу разрабатывать задания в своей среде разработки и выполнять их локально

5. базы данных-это облачная среда, поэтому полностью локально невозможно….