Поддержка библиотеки / пакетов в Azure Databricks через requirements.txt

#python #databricks #azure-databricks

#python #databricks #azure-databricks

Вопрос:

Существует отличная документация по установке пакетов 1 к 1 в azure databricks, но нет способа сделать эквивалент:

 pip install -r requirements.txt
  

или вообще использовать файл требований. Я управляю довольно большой библиотекой и хотел бы простой процесс, который позволяет устанавливать все пакеты / библиотеки сразу, если это возможно!

Ответ №1:

Среда выполнения Databricks > = 7.1 поддерживает:

 %pip install -r /dbfs/requirements.txt
  

Ссылка на документацию.

Ответ №2:

Вы можете записать все необходимые библиотеки Python в записную книжку следующим образом:

 dbutils.library.installPyPI("torch")
dbutils.library.installPyPI("scikit-learn", version="1.19.1")
dbutils.library.installPyPI("azureml-sdk", extras="databricks")
dbutils.library.restartPython()  # Removes Python state, but some libraries might not work without calling this function
  

А затем вызовите эту записную книжку с помощью волшебной команды %run /path/to/notebook_install_lib .
Прочитайте этот документ databricks для получения подробной информации

Обновить
Предыдущий подход теперь устарел, они включили лучший подход для этого, используя опцию установки библиотеки в области ноутбука. В противном случае, это всегда проще сделать с помощью скриптов инициализации с использованием clsuter, это действительно зависит от варианта использования.

Ответ №3:

Чтобы сделать сторонний или созданный локально код доступным для сред выполнения, работающих на ваших кластерах, вы можете установить библиотеку в кластере. Библиотеки могут быть написаны на Python, Java, Scala и R. Вы можете загружать библиотеки Java, Scala и Python и указывать на внешние пакеты в репозиториях PyPI, Maven и CRAN.

Вы можете управлять библиотеками с помощью пользовательского интерфейса, командной строки и путем вызова Libraries API.

Для других методов см. Databricks CLI и Libraries API.

В Databricks Runtime 5.1 и выше вы также можете устанавливать библиотеки Python непосредственно в сеанс notebook с помощью библиотечных утилит. Поскольку библиотеки, установленные в ноутбуке, гарантированно не будут мешать библиотекам, установленным в любых других ноутбуках, даже если все ноутбуки запущены в одном кластере, Databricks рекомендует использовать этот метод, когда это возможно.

Пожалуйста, обратитесь к Create Workspace Library для создания библиотеки.Это довольно простая задача.

Ниже вы можете найти полную документацию по тому же

https://docs.databricks.com/user-guide/libraries.html

Надеюсь, это поможет.

Комментарии:

1. но вы не можете установить большое количество библиотек из списка, такого как requirements.txt на данный момент?