#amazon-s3 #pyspark #amazon-emr #ganglia
Вопрос:
Я заинтересован в сохранении журналов узлов для моего кластера emr в s3 перед завершением кластера. Я подумал, что хороший способ сделать это-добавить шаг в кластер перед завершением, который копирует содержимое /var/lib/ganglia/rrds в указанную мной корзину s3.
response = awsParams.emr_client.add_job_flow_steps(
JobFlowId = awsParams.cluster['JobFlowId'],
Steps = [
{
"Name": "Move ganglia logs to S3",
"ActionOnFailure": "CANCEL_AND_WAIT",
"HadoopJarStep": {
"Jar":"command-runner.jar",
"Args": ["s3-dist-cp","--src=/var/lib/ganglia/rrds",f"{ganglia_save_path}"],
},
},
],
)
Однако, похоже, это не работает. Это отображается как шаг в консоли emr, но журналы не создаются, и, похоже, этот шаг был отменен. Но я не совсем уверен, в чем именно заключается проблема. Я относительно новичок в emr и очень новичок в ганглиях, поэтому буду признателен за любые советы о том, как заставить это работать.