java.lang.Исключение IllegalArgumentException: Недопустимая емкость: -102 при чтении большого файла паркета с помощью pyspark

#pyspark

Вопрос:

У меня есть большой файл паркета (~5 ГБ), и я хочу загрузить его в spark. Следующая команда выполняется без каких-либо ошибок:

 df = spark.read.parquet("path/to/file.parquet")
 

Но когда я пытаюсь выполнить какую-либо операцию, например .show() , или .repartition(n) я сталкиваюсь со следующей ошибкой:

 java.lang.IllegalArgumentException: Illegal Capacity: -102
 

есть какие-нибудь идеи о том, как я могу это исправить?