#hadoop #hdfs #apache-spark
#hadoop #hdfs #apache-spark
Вопрос:
Есть ли способ импортировать таблицу из HDFS непосредственно в spark и сохранить ее как RDD или для этого ее нужно преобразовать в текстовый файл?
ps — Я получаю таблицу в HDFS из своей локальной системы, используя sqoop (если это имеет значение), и когда я это делаю, она появляется в виде 4 файлов
Ответ №1:
Хотя я раньше не использовал sqoop, вы можете использовать его для создания таблиц hive, которые затем можно запрашивать с помощью Spark SQL, что вернет вам SchemaRDDs 🙂
Ответ №2:
Вы можете использовать read.jdbc()
on your sqlContext
для импорта таблицы из внешней базы данных в Spark DataFrame.