Каковы основные различия между HDFS и Databricks DBFS?

#hadoop #hdfs #databricks

#хадуп #hdfs — файлы #блоки данных

Вопрос:

Я вполне понимаю каждого из них. Но каковы основные отличия?

Сохраняются ли оба типа данных на диске?

Что, если я подключу нераспределенную систему к DBFS databricks?

Ответ №1:

Я думаю , что в HDFS данные сохраняются на локальных серверах , но в DBFS они используют S3 в качестве хранилища , по сути , извлекая хранилище из вычислений . WASB (большой двоичный объект хранилища Windows Azure) выполняет то же самое и преобразует хранилище в большие двоичные объекты . Пожалуйста, прочтите это .

Вот что в нем говорится «Файловая система Databricks (DBFS) — это распределенная файловая система, установленная в кластерах Databricks. Файлы в DBFS сохраняются в S3, поэтому вы не потеряете данные даже после завершения работы кластера.»

1. Спасибо за ваш ответ. Это вызывает еще один вопрос. Когда HDFS сохраняются на локальных серверах, все данные распределяются по этим серверам. Но в DBFS, если они сохраняются в хранилище больших двоичных объектов, эти данные больше не распространяются, верно? Я понимаю, что S3 распределен, поэтому он «эмулирует» распределенные серверы, но с хранилищем больших двоичных объектов дело обстоит иначе.

2. У меня есть аналогичный вопрос. DBFS — это файловая система, а S3 — хранилище объектов. Как получается, что распределенная файловая система поддерживается системой хранения объектов?

3. @marz нет никакой разницы между S3 и ABS в контексте DBFS Databricks. «Распределенный» означает, что к нему могут быть доступны несколько узлов кластера. Это довольно близкий аналог HDFS (если не вдаваться в подробности того, что находится под капотом).

Вопрос:

Ответ №1:

Комментарии:

Вам также может понравиться

Как перенести существующие разрешения на новый домен

Ubuntu против Ошибки Red Hat

Интеграция Intune с UWP для поддержки политик защиты приложений