spark 1.6 — создание и история RDD

#apache-spark #pyspark

#apache-spark #pyspark

Вопрос:

Я использую pyspark 1.6 с Python, и я хотел бы отслеживать список предыдущих сеансов и историю.

Например: RDD создан 2 дня назад с опцией сохранения. создал RDD, и он был активен только для текущего сеанса, и когда я выхожу из сеанса, я не вижу дорожки предыдущих преобразований.

Какие-либо настройки или параметр необходимо настроить?

Спасибо Виджаю

Комментарии:

1. Что вы имеете в виду под сессиями? SparkSession?

2. да, сеанс spark, который запускается при нажатии команды pyspark

3. Сеанс работает только во время выполнения. Итак, я гость, вы хотите просмотреть журнал истории в пользовательском интерфейсе Spark?

Ответ №1:

Вы можете использовать команду:история в вашем spark REPL. Он предоставит все команды, используемые для текущего сеанса.

 scala> :history
  1  exit
  2  quit
  3  quit;
  4  close();
  5  val rdd = sc.textFile(“README.md”)
  6  val rdd = sc.textFile("README.md")
  7  rdd.count();
  8  val rdd = sc.textFile("README.md")
  9  rdd.count()
 10  val rdd = sc.textFile("/Users/**/bashrc.txt")
 11  rdd.count()
 12  val rdd = sc.textFile("README.md")
 13  rdd.count();
 14  val rdd = sc.textFile("README.md")
 15  rdd.count()
 16  quit
 17  exit
 18  exit;
 19  history
 20  :history


 scala>