импорт таблицы из HDFS в spark

#hadoop #hdfs #apache-spark

#hadoop #hdfs #apache-spark

Вопрос:

Есть ли способ импортировать таблицу из HDFS непосредственно в spark и сохранить ее как RDD или для этого ее нужно преобразовать в текстовый файл?

ps — Я получаю таблицу в HDFS из своей локальной системы, используя sqoop (если это имеет значение), и когда я это делаю, она появляется в виде 4 файлов

Ответ №1:

Хотя я раньше не использовал sqoop, вы можете использовать его для создания таблиц hive, которые затем можно запрашивать с помощью Spark SQL, что вернет вам SchemaRDDs 🙂

Ответ №2:

Вы можете использовать read.jdbc() on your sqlContext для импорта таблицы из внешней базы данных в Spark DataFrame.