Сохранение журналов узлов в s3

#amazon-s3 #pyspark #amazon-emr #ganglia

Вопрос:

Я заинтересован в сохранении журналов узлов для моего кластера emr в s3 перед завершением кластера. Я подумал, что хороший способ сделать это-добавить шаг в кластер перед завершением, который копирует содержимое /var/lib/ganglia/rrds в указанную мной корзину s3.

 response = awsParams.emr_client.add_job_flow_steps(
    JobFlowId = awsParams.cluster['JobFlowId'],
    Steps = [
        {
            "Name": "Move ganglia logs to S3",
            "ActionOnFailure": "CANCEL_AND_WAIT",
            "HadoopJarStep": {
                "Jar":"command-runner.jar",
                "Args": ["s3-dist-cp","--src=/var/lib/ganglia/rrds",f"{ganglia_save_path}"],
            },
        },
    ],
)
 

Однако, похоже, это не работает. Это отображается как шаг в консоли emr, но журналы не создаются, и, похоже, этот шаг был отменен. Но я не совсем уверен, в чем именно заключается проблема. Я относительно новичок в emr и очень новичок в ганглиях, поэтому буду признателен за любые советы о том, как заставить это работать.