Лучший способ экспортировать фрейм данных pyspark с 230 миллионами строк

#python #pyspark #bigdata

Вопрос:

В настоящее время я работаю с фреймом данных pyspark на Python, который содержит 230 миллионов строк и около 30 столбцов. Когда я манипулирую его данными (удаляю дубликаты, соединяюсь с другими кадрами данных, фильтрую строки), все работает просто отлично. Однако, когда я вызываю такие методы, как show (), программа выходит из строя из-за проблем с памятью. Я пытался экспортировать эти фреймы данных в SQL Server, но не смог этого сделать. Мне нужно «сохранить» эти кадры данных, потому что я буду использовать их позже много раз. Каков наилучший способ сделать это?

Вопрос:

Комментарии:

Вам также может понравиться

Удаленная папка Git не удаляет локальную при извлечении

Реагировать — Не удается ввести ввод, если введено значение = {имя}

Проблема с метками по оси x на графике временных рядов