OutOfMemoryError: пространство кучи Java (с использованием Pyspark в записной книжке Jupyter)

#python #pyspark #jupyter-notebook

Вопрос:

Я пытаюсь написать фрейм данных pyspark, содержащий 30 миллионов строк, в базу данных mysql. Фрейм данных называется «usage_master», и это мой код:

 usage_master.write.mode("append").  option("batchsize", 5000).  option("partitionColumn","MONTH_RANK").  option("numPartitions", 10).  option("lowerBound", 1).  option("upperBound", 10000).  jdbc(url='xxxxxx', table='MY_TABLE',  properties='XXXXX')  

Я получаю «OutOfMemoryError: пространство кучи Java», когда я запускаю этот код, и я пытался увеличить объем памяти кучи, но это не работает. Есть ли лучший способ писать 30 миллионов строк пакетами, возможно, таким образом, чтобы мне не приходилось использовать слишком много памяти?