Каковы основные различия между HDFS и Databricks DBFS?

#hadoop #hdfs #databricks

#хадуп #hdfs — файлы #блоки данных

Вопрос:

Я вполне понимаю каждого из них. Но каковы основные отличия?

Сохраняются ли оба типа данных на диске?

Что, если я подключу нераспределенную систему к DBFS databricks?

Ответ №1:

Я думаю , что в HDFS данные сохраняются на локальных серверах , но в DBFS они используют S3 в качестве хранилища , по сути , извлекая хранилище из вычислений . WASB (большой двоичный объект хранилища Windows Azure) выполняет то же самое и преобразует хранилище в большие двоичные объекты . Пожалуйста, прочтите это .

Вот что в нем говорится «Файловая система Databricks (DBFS) — это распределенная файловая система, установленная в кластерах Databricks. Файлы в DBFS сохраняются в S3, поэтому вы не потеряете данные даже после завершения работы кластера.»

Комментарии:

1. Спасибо за ваш ответ. Это вызывает еще один вопрос. Когда HDFS сохраняются на локальных серверах, все данные распределяются по этим серверам. Но в DBFS, если они сохраняются в хранилище больших двоичных объектов, эти данные больше не распространяются, верно? Я понимаю, что S3 распределен, поэтому он «эмулирует» распределенные серверы, но с хранилищем больших двоичных объектов дело обстоит иначе.

2. У меня есть аналогичный вопрос. DBFS — это файловая система, а S3 — хранилище объектов. Как получается, что распределенная файловая система поддерживается системой хранения объектов?

3. @marz нет никакой разницы между S3 и ABS в контексте DBFS Databricks. «Распределенный» означает, что к нему могут быть доступны несколько узлов кластера. Это довольно близкий аналог HDFS (если не вдаваться в подробности того, что находится под капотом).