#pyspark
Вопрос:
У меня есть большой файл паркета (~5 ГБ), и я хочу загрузить его в spark. Следующая команда выполняется без каких-либо ошибок:
df = spark.read.parquet("path/to/file.parquet")
Но когда я пытаюсь выполнить какую-либо операцию, например .show()
, или .repartition(n)
я сталкиваюсь со следующей ошибкой:
java.lang.IllegalArgumentException: Illegal Capacity: -102
есть какие-нибудь идеи о том, как я могу это исправить?