#python #pyspark #bigdata
Вопрос:
В настоящее время я работаю с фреймом данных pyspark на Python, который содержит 230 миллионов строк и около 30 столбцов. Когда я манипулирую его данными (удаляю дубликаты, соединяюсь с другими кадрами данных, фильтрую строки), все работает просто отлично. Однако, когда я вызываю такие методы, как show (), программа выходит из строя из-за проблем с памятью. Я пытался экспортировать эти фреймы данных в SQL Server, но не смог этого сделать. Мне нужно «сохранить» эти кадры данных, потому что я буду использовать их позже много раз. Каков наилучший способ сделать это?
Комментарии:
1. Пожалуйста, предоставьте достаточно кода, чтобы другие могли лучше понять или воспроизвести проблему.