#apache-spark #terminal #pyspark #hadoop-yarn #spark-submit
#apache-spark #терминал #pyspark #hadoop-yarn #запустить-отправить
Вопрос:
У меня есть несколько заданий, которые используют следующую команду для выполнения некоторых задач:
pyspark --master yarn --deploy-mode cluster --py-files file.py --name file file.py
Скрипт в моем файле python очень прост:
from pyspark import SparkContext;
from pyspark.sql import HiveContext;
sc =SparkContext();
hive_context = HiveContext(sc);
table_1 = hive_context.sql("SELECT * FROM table_1");
table_1.write.insertInto("table_to_insert", overwrite=True);
Мой вопрос: могу ли я запустить эту команду непосредственно со сценарием вместо использования файла? Что-то вроде:
"pyspark --master yarn --deploy-mode cluster --py-script 'from pyspark import SparkContext; from pyspark.sql import HiveContext; sc =SparkContext(); hive_context = HiveContext(sc); table_1 = hive_context.sql("SELECT * FROM table_1"); table_1.write.insertInto("table_to_insert", overwrite=True);'"
Возможно ли это?
Большое спасибо за вашу поддержку!
Комментарии:
1. Какова ваша реальная цель здесь — почему вы пытаетесь избежать использования файла?
2. Я использую инструмент оркестровки для выполнения своих заданий. Если у меня будет возможность запускать все задания непосредственно на терминале, это будет намного лучше, чем создавать несколько файлов, внешних по отношению к инструменту