#scala #apache-spark
#scala #apache-spark
Вопрос:
В spark это можно сделать setName
на RDD.
Возможно ли загрузить RDD из имени?
Нравится spark.loadRDD(name)
?
Спасибо.
Ответ №1:
Такой опции нет, потому что имена не являются уникальными идентификаторами. Есть только способ прикрепить дополнительную информацию, которая будет показана в пользовательском интерфейсе или строке debugs.
Совершенно нормально иметь:
val rdd1 = sc.parallelize(Seq(1, 2, 3)).setName("foo")
val rdd2 = sc.parallelize(Seq(4, 5, 6)).setName("foo")
и Spark не будет «знать», какой RDD возвращать.
Кроме того, Spark вообще не отслеживает RDD. Только объекты, которые кэшируются или сохраняются другими способами, «известны» Spark.
Комментарии:
1. Спасибо! Но это возможно с помощью dataframe, верно? Вы можете создать таблицу и запросить таблицу, если я правильно помню.