Чтение и запись больших файлов и их перераспределение вызывают исключения ввода-вывода Java

#pyspark #amazon-emr

Вопрос:

Я читал много ресурсов, которые предлагают увеличить число fs.s3.maxConnections до большего (текущее число установлено на 1000, увеличено до 10000), но внесение этого изменения не помогает мне оправиться от Timeout waiting for connection from pool" in Amazon EMR него . Попытался следовать тому, о чем здесь спрашивали. Любое предложение будет полезно здесь.

Я использую pyspark EMR, и файл представляет собой огромный файл, который repartitioned разбивается на множество файлов меньшего размера.