#python #pyspark #jupyter-notebook
Вопрос:
Я пытаюсь написать фрейм данных pyspark, содержащий 30 миллионов строк, в базу данных mysql. Фрейм данных называется «usage_master», и это мой код:
usage_master.write.mode("append"). option("batchsize", 5000). option("partitionColumn","MONTH_RANK"). option("numPartitions", 10). option("lowerBound", 1). option("upperBound", 10000). jdbc(url='xxxxxx', table='MY_TABLE', properties='XXXXX')
Я получаю «OutOfMemoryError: пространство кучи Java», когда я запускаю этот код, и я пытался увеличить объем памяти кучи, но это не работает. Есть ли лучший способ писать 30 миллионов строк пакетами, возможно, таким образом, чтобы мне не приходилось использовать слишком много памяти?