Загрузить RDD из имени

#scala #apache-spark

#scala #apache-spark

Вопрос:

В spark это можно сделать setName на RDD.

Возможно ли загрузить RDD из имени?

Нравится spark.loadRDD(name) ?

Спасибо.

Ответ №1:

Такой опции нет, потому что имена не являются уникальными идентификаторами. Есть только способ прикрепить дополнительную информацию, которая будет показана в пользовательском интерфейсе или строке debugs.

Совершенно нормально иметь:

 val rdd1 = sc.parallelize(Seq(1, 2, 3)).setName("foo")
val rdd2 = sc.parallelize(Seq(4, 5, 6)).setName("foo")
  

и Spark не будет «знать», какой RDD возвращать.

Кроме того, Spark вообще не отслеживает RDD. Только объекты, которые кэшируются или сохраняются другими способами, «известны» Spark.

Комментарии:

1. Спасибо! Но это возможно с помощью dataframe, верно? Вы можете создать таблицу и запросить таблицу, если я правильно помню.