#hadoop #hdfs #databricks
#хадуп #hdfs — файлы #блоки данных
Вопрос:
Я вполне понимаю каждого из них. Но каковы основные отличия?
Сохраняются ли оба типа данных на диске?
Что, если я подключу нераспределенную систему к DBFS databricks?
Ответ №1:
Я думаю , что в HDFS данные сохраняются на локальных серверах , но в DBFS они используют S3 в качестве хранилища , по сути , извлекая хранилище из вычислений . WASB (большой двоичный объект хранилища Windows Azure) выполняет то же самое и преобразует хранилище в большие двоичные объекты . Пожалуйста, прочтите это .
Вот что в нем говорится «Файловая система Databricks (DBFS) — это распределенная файловая система, установленная в кластерах Databricks. Файлы в DBFS сохраняются в S3, поэтому вы не потеряете данные даже после завершения работы кластера.»
Комментарии:
1. Спасибо за ваш ответ. Это вызывает еще один вопрос. Когда HDFS сохраняются на локальных серверах, все данные распределяются по этим серверам. Но в DBFS, если они сохраняются в хранилище больших двоичных объектов, эти данные больше не распространяются, верно? Я понимаю, что S3 распределен, поэтому он «эмулирует» распределенные серверы, но с хранилищем больших двоичных объектов дело обстоит иначе.
2. У меня есть аналогичный вопрос. DBFS — это файловая система, а S3 — хранилище объектов. Как получается, что распределенная файловая система поддерживается системой хранения объектов?
3. @marz нет никакой разницы между S3 и ABS в контексте DBFS Databricks. «Распределенный» означает, что к нему могут быть доступны несколько узлов кластера. Это довольно близкий аналог HDFS (если не вдаваться в подробности того, что находится под капотом).